Om AI联汇发布VLX：全球首个面向物理世界的端侧流式多模态模型

4.2

深览指数

产品量子位·3小时前·AI 生成

Om AI联汇发布VLX：全球首个面向物理世界的端侧流式多模态模型

Om AI联汇发布了全球首个面向物理世界的端侧流式多模态模型系列VLX，提出“流式多模态”架构，有别于传统视频模型的离线逐帧处理，通过流式编码与增量推理实现毫秒级实时感知，并在端侧打通从持续感知、精准定位到行动决策的完整闭环。文章详细介绍了VLX系列中VLX-Flow（持续感知）、VLX-Seek（精准定位）和VLX-Go（行动执行）三款模型的分工与特性，并强调该架构是围绕端侧具身智能原生设计，而非云端模型压缩。适合关注具身智能、端侧AI模型架构的技术从业者和投资者阅读。原文 ↗原文 ↗

核心观点

▍VLX系列提出了“流式多模态”模型架构，区别于传统视频理解模型，面向物理世界持续涌入的视频流，以流式编码与增量推理实现毫秒级实时感知，并首次在端侧打通“持续感知→精准定位→行动决策”的完整闭环。
▍该架构是针对端侧具身智能原生设计的，不是云端模型压缩后塞进终端，以“快、小、准、行”四大优势，从架构层面应对物理世界时间连续、环境动态变化、终端算力受限的约束。

01VLX系列由三款模型协同构成：VLX-Flow负责持续感知，通过增量编码与缓存推理机制实现实时观察；VLX-Seek将坐标生成转化为区域检索，提供可靠空间感知；VLX-Go将视觉理解直接转化为机器人可执行的航点与轨迹。
02模型单路推理延迟最低可达0.06秒，覆盖0.6B至10B的参数规格。

反方 / 局限

— 文章作为产品发布稿，未提及任何技术局限、与现有路径的对比数据、落地挑战或反方观点。

Om AI联汇 VLX 流式多模态量子位

3 分钟 · 4 卡片 · 7 资料

读原文 →

Om AI联汇发布VLX：全球首个面向物理世界的端侧流式多模态模型

前置背景

技术原理

平行视角

延伸追问