具身季报 26Q2：世界模型大风不停，和不想被贴标签的人

8.0

深览指数

科技微博·晚点LatePost·7小时前·AI 生成

具身季报 26Q2：世界模型大风不停，和不想被贴标签的人

本季具身智能行业的核心变化是：世界模型从概念走向产品化，灵巧手硬件取得突破，人形机器人首次大规模进入公众视野。作者以投资人视角，梳理了人形马拉松、Figure 物流直播、英伟达Cosmos 3发布、VLA模型迭代等五大事件。不同于简单的资讯汇总，文章深入讨论了技术路线分歧（直驱vs绳驱、VLA vs世界模型）、数据采集范式的演变，以及中美创业环境差异对大模型落地节奏的影响。核心判断是：未来6个月是大厂入场人形机器人赛道的最后窗口，而大脑能力可能走向寡头化。适合关注AI与机器人产业的投资人、技术决策者和研究者阅读。原文 ↗原文 ↗

核心观点

▍人形机器人行业正从单一技术见长的创业公司视角，演变成系统工程和系统作战能力的竞争，拥有高端制造经验和资源的大厂（如荣耀、小米、小鹏、理想）将成为重要力量。
▍未来6个月是进入人形机器人赛道的最后窗口，大脑能力可能走向寡头化——要么有顶级闭源模型，要么有高水平开源模型，中间层无法生存。

01荣耀机器人事业部凭借大扭矩电机和液冷机构，在亦庄人形马拉松中包揽冠亚季军，成绩从去年约2小时40分钟提升至50分钟左右，进步速度显著。
02Figure AI直播200小时物流分拣，展示了人形机器人在处理软体、形变包裹这一非标场景中的独特价值，传统机械臂加吸盘的方案无法解决此类问题。
03英伟达发布的Cosmos 3是一个全开源全能世界模型，采用MoT（自回归Transformer+扩散Transformer）架构统一了理解与生成，代表了行业对终极智能模型的思考。
04舞肌二代灵巧手（20自由度、直驱、反驱性好、体积为Sharpa一半）在ICRA上获得广泛关注，其定位类似于宇树在机器人本体中的地位——提供低成本、高可靠性的研究平台。
05Generalist的GEN-1模型未基于已有VLM微调，而是自采50万小时真实世界交互数据从头训练，展示了显著的Scaling Law效果，任务成功率从60%提升至99%。
06Physical Intelligence的π0.7在传统VLA基础上接上轻量级世界模型，通过对未来图像的预测来指导动作生成，更接近人类直觉。
07数据采集范式在快速演变：从ALOHA（真机遥操）到UMI（无本体夹爪），再到Ego-centric（第一视角视频）和SONIC全身动捕，数据质与量的提升可能转化为3-6个月后的模型突破。

反方 / 局限

— 世界模型虽有潜力，但其最大的挑战在于数据获取：高自由度灵巧手的数据高度依赖硬件结构本身，尚未形成共识的采集方法，这限制了泛化模型的训练。
— 全栈做机器人是否是最优终局尚无定论。最终大赢家可能不是全栈公司（类比英伟达），也可能存在垂直分工生态，但中国资本市场对长期无商业化的探索容忍度较低。
— 当前对人形机器人本体是否winner-take-all存在分歧：可能分化为服务不同场景的多种形态（小型/大型），但大脑能力更可能寡头化。

荣耀机器人事业部 Figure AI 英伟达 Cosmos 3 舞肌 Sharpa Physical Intelligence (Pi)Generalist 宇树 OpenAI Robotics Genesis 曦诺未来星动纪元 VLA (Vision-Language-Action) 模型世界模型 (World Model)灵巧手贝叶斯人形机器人马拉松 ICRA 2026

45 分钟 · 4 卡片 · 12 资料

读原文 →

具身季报 26Q2：世界模型大风不停，和不想被贴标签的人

前置背景

平行视角

未来推演

延伸追问