产品 量子位 · 3小时前 · AI 生成
Om AI联汇发布VLX:全球首个面向物理世界的端侧流式多模态模型 Om AI联汇发布了全球首个面向物理世界的端侧流式多模态模型系列VLX,提出“流式多模态”架构,有别于传统视频模型的离线逐帧处理,通过流式编码与增量推理实现毫秒级实时感知,并在端侧打通从持续感知、精准定位到行动决策的完整闭环。文章详细介绍了VLX系列中VLX-Flow(持续感知)、VLX-Seek(精准定位)和VLX-Go(行动执行)三款模型的分工与特性,并强调该架构是围绕端侧具身智能原生设计,而非云端模型压缩。适合关注具身智能、端侧AI模型架构的技术从业者和投资者阅读。原文 ↗ 原文 ↗
核心观点
▍ VLX系列提出了“流式多模态”模型架构,区别于传统视频理解模型,面向物理世界持续涌入的视频流,以流式编码与增量推理实现毫秒级实时感知,并首次在端侧打通“持续感知→精准定位→行动决策”的完整闭环。 ▍ 该架构是针对端侧具身智能原生设计的,不是云端模型压缩后塞进终端,以“快、小、准、行”四大优势,从架构层面应对物理世界时间连续、环境动态变化、终端算力受限的约束。 01 VLX系列由三款模型协同构成:VLX-Flow负责持续感知,通过增量编码与缓存推理机制实现实时观察;VLX-Seek将坐标生成转化为区域检索,提供可靠空间感知;VLX-Go将视觉理解直接转化为机器人可执行的航点与轨迹。 02 模型单路推理延迟最低可达0.06秒,覆盖0.6B至10B的参数规格。 反方 / 局限
— 文章作为产品发布稿,未提及任何技术局限、与现有路径的对比数据、落地挑战或反方观点。
前置背景 理想马赫Mind-Edge的流式时序建模
VLX的架构并非孤例。2026年6月,理想汽车在LivisDay上发布了自研端侧原生具身智能体马赫Mind-Edge,其核心正是「多模态流式时序建模」。该模型专为车载场景从底层原生构建,而非云端模型压缩,能连续理解动态物理世界,实现因果推理与自主决策,并将Always-On全天候感知、人车交互、自主控车全部在车端本地完成,数据不上传云端。这一对比说明,头部车企与AI公司正不约而同地押注端侧流式架构作为具身智能的实体化底座。
▸ 2 条关联资料
▼
技术原理 从猜坐标到选区域:VLX-Seek的定位范式
传统目标检测模型直接回归边界框坐标,在端侧易受噪声干扰。VLX-Seek创新性地将坐标生成转化为候选区域检索——先通过轻量级网络生成一组高质量候选区域,再用注意力机制从中「选」出最佳匹配,而非「猜」出绝对值。这种方法本质上将连续回归问题离散化为排序问题,降低了端侧算力需求,同时保持了开放词汇检测与细粒度定位的稳定性。这一思路在CVPR 2026的诸多工作中也有类似探索,但被Om AI率先跑进了端侧。
▸ 1 条关联资料
▼
平行视角 端侧 vs 云端:物理AI的算力博弈
VLX走的是端侧原生路线,但云端方案仍是主流。一份技术对比显示,端侧模型通过轻量化设计和本地化部署,延迟可控制在100ms以内,且保护数据隐私;而云端方案依赖大规模GPU集群,虽能处理更高分辨率与更长时序,但网络抖动与物理距离带来的「延迟之墙」是硬伤。Akamai 2026报告指出,50%企业在高负载下无法维持250毫秒的响应要求。端侧不是要替代云端,而是把对延迟敏感的动作决策留在本地,把复杂推理交给云端——两种路线在未来数年将长期共存。
▸ 3 条关联资料
▼
延伸追问 流式多模态的「记忆边界」在哪
VLX通过增量编码与缓存KV-Cache实现连续感知,但物理世界的信息流是无限的。一个未被解答的核心问题是:端侧模型如何在不溢出算力和显存的前提下,处理数十小时甚至更长的持续性视频流?理想的StreamingClaw采用了层级记忆演化机制,将原始片段演化为高层的「原子动作」节点,以此压缩记忆。这是否会成为流式多模态模型的标配技术,直接决定了端侧具身智能的自主决策深度与续航时长。
▸ 1 条关联资料
▼