CVPR 2026最热方向，被一家杭州团队率先跑进了端侧！

5.5

深览指数

产品量子位·2小时前·AI 生成

CVPR 2026最热方向，被一家杭州团队率先跑进了端侧！

总部位于杭州的Om AI继开源项目VLM-R1之后，发布了全球首个面向物理世界的端侧流式多模态模型系列VLX。该系列包含Flow（持续感知）、Seek（精准定位）、Go（行动决策）三款共享基座的模型，构成从“看见”到“行事”的完整闭环。文章详细介绍了VLX采用流式处理解决传统视频模型计算成本与实时性问题，用区域生成替代坐标定位实现精细感知，并通过短时航点预测完成运动控制。其核心差异化在于架构从研发之初即为端侧算力量身定制，而非对云端大模型的压缩。本文适合关注具身智能、端侧AI部署、多模态模型落地而非大模型参数竞赛的技术从业者阅读。原文 ↗原文 ↗

核心观点

▍Om AI 发布的 VLX 系列的核心创新不在于参数规模或通用知识，而在于打造了第一个面向物理世界、专为端侧算力设计、且将感知—定位—行动整合为完整链路的流式多模态系统。

01VLX 包含三款模型：VLX-Flow（实时流式感知）、VLX-Seek（精准定位）、VLX-Go（行动决策），它们共享同一基座，在同一条视频流上协同工作。
02VLX-Flow 采用 Linear Attention 替代标准 Attention，并结合双层记忆机制，实现了视频流持续输入下的低延迟响应，处理单路视频最快仅需0.06秒。
03VLX-Seek 用 Region Token 替代传统坐标生成，将定位过程从“猜坐标”变为“选区域”，在3B参数规模下达到超过更大通用模型的目标检测表现。
04VLX-Go 仅用 0.6B 参数，通过短时航点预测而非复杂长链路规划完成实时运动控制，结合离线轨迹学习和在线强化学习优化决策。
05团队表示，这套系统的架构是从Day 1就按照端侧算力约束设计，而非先训练大模型再压缩部署。
06CVPR 2026 上，VLM/多模态相关论文占比从去年的 4.9% 增长到 10.6%，最受关注的关键词是实时感知（Streaming）和定位（Grounding）。

反方 / 局限

— 文章未提及任何与VLM-R1或此前的科研成果相关的性能基准测试对比，也未说明VLX系列模型的算力消耗与竞品（如高通、苹果的端侧模型）的具体差距。

Om AI VLX VLM-R1 赵天成深览指数端侧流式多模态具身智能 CVPR 2026 Linear Attention Region Token

13 分钟 · 4 卡片 · 11 资料

读原文 →

CVPR 2026最热方向，被一家杭州团队率先跑进了端侧！

概念锚点

前置背景

平行视角

延伸追问