8.0
深览指数
科技微博·晚点LatePost··AI 生成
具身季报 26Q2:世界模型大风不停,和不想被贴标签的人
本季具身智能行业的核心变化是:世界模型从概念走向产品化,灵巧手硬件取得突破,人形机器人首次大规模进入公众视野。作者以投资人视角,梳理了人形马拉松、Figure 物流直播、英伟达Cosmos 3发布、VLA模型迭代等五大事件。不同于简单的资讯汇总,文章深入讨论了技术路线分歧(直驱vs绳驱、VLA vs世界模型)、数据采集范式的演变,以及中美创业环境差异对大模型落地节奏的影响。核心判断是:未来6个月是大厂入场人形机器人赛道的最后窗口,而大脑能力可能走向寡头化。适合关注AI与机器人产业的投资人、技术决策者和研究者阅读。原文 ↗
核心观点
- ▍人形机器人行业正从单一技术见长的创业公司视角,演变成系统工程和系统作战能力的竞争,拥有高端制造经验和资源的大厂(如荣耀、小米、小鹏、理想)将成为重要力量。
- ▍未来6个月是进入人形机器人赛道的最后窗口,大脑能力可能走向寡头化——要么有顶级闭源模型,要么有高水平开源模型,中间层无法生存。
- 01荣耀机器人事业部凭借大扭矩电机和液冷机构,在亦庄人形马拉松中包揽冠亚季军,成绩从去年约2小时40分钟提升至50分钟左右,进步速度显著。
- 02Figure AI直播200小时物流分拣,展示了人形机器人在处理软体、形变包裹这一非标场景中的独特价值,传统机械臂加吸盘的方案无法解决此类问题。
- 03英伟达发布的Cosmos 3是一个全开源全能世界模型,采用MoT(自回归Transformer+扩散Transformer)架构统一了理解与生成,代表了行业对终极智能模型的思考。
- 04舞肌二代灵巧手(20自由度、直驱、反驱性好、体积为Sharpa一半)在ICRA上获得广泛关注,其定位类似于宇树在机器人本体中的地位——提供低成本、高可靠性的研究平台。
- 05Generalist的GEN-1模型未基于已有VLM微调,而是自采50万小时真实世界交互数据从头训练,展示了显著的Scaling Law效果,任务成功率从60%提升至99%。
- 06Physical Intelligence的π0.7在传统VLA基础上接上轻量级世界模型,通过对未来图像的预测来指导动作生成,更接近人类直觉。
- 07数据采集范式在快速演变:从ALOHA(真机遥操)到UMI(无本体夹爪),再到Ego-centric(第一视角视频)和SONIC全身动捕,数据质与量的提升可能转化为3-6个月后的模型突破。
反方 / 局限
- — 世界模型虽有潜力,但其最大的挑战在于数据获取:高自由度灵巧手的数据高度依赖硬件结构本身,尚未形成共识的采集方法,这限制了泛化模型的训练。
- — 全栈做机器人是否是最优终局尚无定论。最终大赢家可能不是全栈公司(类比英伟达),也可能存在垂直分工生态,但中国资本市场对长期无商业化的探索容忍度较低。
- — 当前对人形机器人本体是否winner-take-all存在分歧:可能分化为服务不同场景的多种形态(小型/大型),但大脑能力更可能寡头化。
荣耀机器人事业部Figure AI英伟达 Cosmos 3舞肌SharpaPhysical Intelligence (Pi)Generalist宇树OpenAI RoboticsGenesis曦诺未来星动纪元VLA (Vision-Language-Action) 模型世界模型 (World Model)灵巧手贝叶斯人形机器人马拉松ICRA 2026
45 分钟 · 4 卡片 · 12 资料
读原文 →