科技智东西··AI 生成
黄仁勋的物理AI ChatGPT时刻,正被这家中国公司的“流式多模态”接棒
文章以英伟达黄仁勋提出的物理AI愿景为引,系统介绍了中国创业公司Om AI联汇发布的VLX端侧流式多模态模型系列。核心主张是,物理世界AI需要的不是云端大模型的离线推理,而是一种持续感知、精准定位、即时行动的端侧“视觉中枢”。文章详细拆解了VLX的Flow、Seek、Go三层架构及其在具身智能、无人机、安防等场景的落地案例,并用基准测试数据论证了“小参数专用模型优于大参数通用模型”这一反主流趋势的判断。本文适合关注AI落地路线之争、边缘计算产业化的从业者阅读。原文 ↗原文 ↗
核心观点
- ▍物理AI的核心技术需求并非更大的云端模型,而是‘流式多模态’架构,即一种能在端侧持续感知、精准定位、直接驱动行动的视觉中枢。
- ▍在参数规模与物理世界表现的衡量上,‘为场景设计模型’(小参数专用模型)比‘把通用模型塞进场景’更高效。
- 01VLX系列由三个模型构成:VLX-Flow(持续感知,采用Linear Attention机制)、VLX-Seek(精准定位,采用区域指代机制)、VLX-Go(行动输出,采用短时航点预测)。
- 02在基准测试中,Seek-3B模型在目标检测(MSCOCO val2017)、复杂语义基准(RefCOCO)等四项指标上大幅超越Gemini 3.1 Pro和GPT-5等旗舰大模型。
- 03Go模型(0.6B)在机器人导航任务中以85.42%的成功率和94.08%的跟踪率,超越参数大其13倍的Qwen-RobotNav-8B。
- 04端侧推理延迟仅需0.1秒,而云端通常超过5秒,50倍的差距决定了系统‘可用’与‘不可用’的边界。
- 05VLX已在具身智能(云深处、宇树等头部企业)、无人机、可穿戴设备(好马APP服务近10万视障用户)、安防摄像头、AI PC(苹果、联想、惠普、英伟达)及国产芯片(华为昇腾、地瓜、RK3588)等场景落地。
反方 / 局限
- — 文章本质是一篇公司产品PR稿,所有案例和数据均为正面展示,未提及任何技术局限性、行业数据造假风险、与传统视觉方案的根本性冲突或商业化障碍。
概念锚点
前置背景
平行视角
未来推演
延伸追问