5.5
深览指数
产品量子位··AI 生成

CVPR 2026最热方向,被一家杭州团队率先跑进了端侧!

总部位于杭州的Om AI继开源项目VLM-R1之后,发布了全球首个面向物理世界的端侧流式多模态模型系列VLX。该系列包含Flow(持续感知)、Seek(精准定位)、Go(行动决策)三款共享基座的模型,构成从“看见”到“行事”的完整闭环。文章详细介绍了VLX采用流式处理解决传统视频模型计算成本与实时性问题,用区域生成替代坐标定位实现精细感知,并通过短时航点预测完成运动控制。其核心差异化在于架构从研发之初即为端侧算力量身定制,而非对云端大模型的压缩。本文适合关注具身智能、端侧AI部署、多模态模型落地而非大模型参数竞赛的技术从业者阅读。原文 ↗

核心观点
  • Om AI 发布的 VLX 系列的核心创新不在于参数规模或通用知识,而在于打造了第一个面向物理世界、专为端侧算力设计、且将感知—定位—行动整合为完整链路的流式多模态系统。
  1. 01VLX 包含三款模型:VLX-Flow(实时流式感知)、VLX-Seek(精准定位)、VLX-Go(行动决策),它们共享同一基座,在同一条视频流上协同工作。
  2. 02VLX-Flow 采用 Linear Attention 替代标准 Attention,并结合双层记忆机制,实现了视频流持续输入下的低延迟响应,处理单路视频最快仅需0.06秒。
  3. 03VLX-Seek 用 Region Token 替代传统坐标生成,将定位过程从“猜坐标”变为“选区域”,在3B参数规模下达到超过更大通用模型的目标检测表现。
  4. 04VLX-Go 仅用 0.6B 参数,通过短时航点预测而非复杂长链路规划完成实时运动控制,结合离线轨迹学习和在线强化学习优化决策。
  5. 05团队表示,这套系统的架构是从Day 1就按照端侧算力约束设计,而非先训练大模型再压缩部署。
  6. 06CVPR 2026 上,VLM/多模态相关论文占比从去年的 4.9% 增长到 10.6%,最受关注的关键词是实时感知(Streaming)和定位(Grounding)。
反方 / 局限
  • 文章未提及任何与VLM-R1或此前的科研成果相关的性能基准测试对比,也未说明VLX系列模型的算力消耗与竞品(如高通、苹果的端侧模型)的具体差距。
13 分钟 · 4 卡片 · 11 资料
读原文 →

概念锚点

前置背景

平行视角

延伸追问