4.2
深览指数
产品量子位··AI 生成

Om AI联汇发布VLX:全球首个面向物理世界的端侧流式多模态模型

Om AI联汇发布了全球首个面向物理世界的端侧流式多模态模型系列VLX,提出“流式多模态”架构,有别于传统视频模型的离线逐帧处理,通过流式编码与增量推理实现毫秒级实时感知,并在端侧打通从持续感知、精准定位到行动决策的完整闭环。文章详细介绍了VLX系列中VLX-Flow(持续感知)、VLX-Seek(精准定位)和VLX-Go(行动执行)三款模型的分工与特性,并强调该架构是围绕端侧具身智能原生设计,而非云端模型压缩。适合关注具身智能、端侧AI模型架构的技术从业者和投资者阅读。原文 ↗

核心观点
  • VLX系列提出了“流式多模态”模型架构,区别于传统视频理解模型,面向物理世界持续涌入的视频流,以流式编码与增量推理实现毫秒级实时感知,并首次在端侧打通“持续感知→精准定位→行动决策”的完整闭环。
  • 该架构是针对端侧具身智能原生设计的,不是云端模型压缩后塞进终端,以“快、小、准、行”四大优势,从架构层面应对物理世界时间连续、环境动态变化、终端算力受限的约束。
  1. 01VLX系列由三款模型协同构成:VLX-Flow负责持续感知,通过增量编码与缓存推理机制实现实时观察;VLX-Seek将坐标生成转化为区域检索,提供可靠空间感知;VLX-Go将视觉理解直接转化为机器人可执行的航点与轨迹。
  2. 02模型单路推理延迟最低可达0.06秒,覆盖0.6B至10B的参数规格。
反方 / 局限
  • 文章作为产品发布稿,未提及任何技术局限、与现有路径的对比数据、落地挑战或反方观点。
3 分钟 · 4 卡片 · 7 资料
读原文 →

前置背景

技术原理

平行视角

延伸追问