黄仁勋的物理AI ChatGPT时刻，正被这家中国公司的“流式多模态”接棒

6.3

深览指数

科技智东西·2小时前·AI 生成

黄仁勋的物理AI ChatGPT时刻，正被这家中国公司的“流式多模态”接棒

文章以英伟达黄仁勋提出的物理AI愿景为引，系统介绍了中国创业公司Om AI联汇发布的VLX端侧流式多模态模型系列。核心主张是，物理世界AI需要的不是云端大模型的离线推理，而是一种持续感知、精准定位、即时行动的端侧“视觉中枢”。文章详细拆解了VLX的Flow、Seek、Go三层架构及其在具身智能、无人机、安防等场景的落地案例，并用基准测试数据论证了“小参数专用模型优于大参数通用模型”这一反主流趋势的判断。本文适合关注AI落地路线之争、边缘计算产业化的从业者阅读。原文 ↗原文 ↗

核心观点

▍物理AI的核心技术需求并非更大的云端模型，而是‘流式多模态’架构，即一种能在端侧持续感知、精准定位、直接驱动行动的视觉中枢。
▍在参数规模与物理世界表现的衡量上，‘为场景设计模型’（小参数专用模型）比‘把通用模型塞进场景’更高效。

01VLX系列由三个模型构成：VLX-Flow（持续感知，采用Linear Attention机制）、VLX-Seek（精准定位，采用区域指代机制）、VLX-Go（行动输出，采用短时航点预测）。
02在基准测试中，Seek-3B模型在目标检测（MSCOCO val2017）、复杂语义基准（RefCOCO）等四项指标上大幅超越Gemini 3.1 Pro和GPT-5等旗舰大模型。
03Go模型（0.6B）在机器人导航任务中以85.42%的成功率和94.08%的跟踪率，超越参数大其13倍的Qwen-RobotNav-8B。
04端侧推理延迟仅需0.1秒，而云端通常超过5秒，50倍的差距决定了系统‘可用’与‘不可用’的边界。
05VLX已在具身智能（云深处、宇树等头部企业）、无人机、可穿戴设备（好马APP服务近10万视障用户）、安防摄像头、AI PC（苹果、联想、惠普、英伟达）及国产芯片（华为昇腾、地瓜、RK3588）等场景落地。

反方 / 局限

— 文章本质是一篇公司产品PR稿，所有案例和数据均为正面展示，未提及任何技术局限性、行业数据造假风险、与传统视觉方案的根本性冲突或商业化障碍。

黄仁勋 Om AI联汇赵天成 VLX端侧流式多模态模型英伟达云深处宇树华为昇腾 Linear Attention CES 2026

10 分钟 · 5 卡片 · 9 资料

读原文 →

黄仁勋的物理AI ChatGPT时刻，正被这家中国公司的“流式多模态”接棒

概念锚点

前置背景

平行视角

未来推演

延伸追问