7.7
深览指数
科技微博·机器之心Pro··AI 生成
人形机器人「小脑」的GPT时刻来了,还有史上最大动捕数据,整整20亿帧
银河通用发布全球首个人形机器人全身实时运控基座大模型 AstraBrain-WBC 0.5,用20亿帧动捕数据训练,零样本成功率从76.89%跃至92.58%,推理延迟仅0.39ms。作者核心贡献在于系统证明了Scaling Law在运动控制领域的有效性,并用因果Transformer+专家蒸馏架构解决了MLP/TCN的扩展瓶颈。适合关注具身智能技术突破与产业格局的读者。原文 ↗
核心观点
- ▍Scaling Law在人形机器人运动控制上成立:通过将数据量堆到同类研究的200倍以上(20亿帧)并换用GPT风格Transformer架构,模型性能随数据/参数增长持续提升,未出现饱和。
- ▍MLP/TCN架构的瓶颈并非数据少,而是架构本身的扩展性限制;换用因果Transformer后,性能随着数据与模型规模的扩大才能持续增长。
- 01标准AMASS测试集上,AstraBrain-WBC 0.5-L(20亿帧)的追踪成功率为92.58%,而同样200万帧下MLP为76.89%、TCN为81.48%,架构换代本身就带来提升。
- 02数据每扩大10倍,MPJPE误差持续下降,形成清晰的幂律曲线,这是Scaling Law在人形机器人运动控制上的第一个实证印记。
- 03真机测试中,在宇树G1机器人上进行四段未见舞蹈动作零样本追踪,AstraBrain-WBC 0.5在MPJPE指标上均低于或持平GMT、TWIST、Any2Track等最强开源方法。
- 04推理延迟降至0.39ms,控制回路50Hz实时运行,比TWIST(均值2.79ms)速度提升约5倍,得益于针对因果注意力和MLP融合算子的内核优化。
- 05通过谐波运动嵌入(HME)将20亿帧动作数据聚类成约300个风格各异的动作簇,实现多样性感知均衡采样,解决了大规模数据中常见动作淹没稀有动作的问题。
- 06采用“先分后合”策略:在300个动作族上各训练PPO专家,再用DAgger蒸馏框架将384个专家压缩为单Transformer通才模型,部署时只需一个模型。
- 07整个训练耗时约15000 GPU小时,其中75%用于专家训练(RTX 4090),25%用于Transformer蒸馏(H100),最终模型参数达8040万级别。
- 08银河通用已完成超3亿美元融资(2025.12)和25亿元融资(2026.3),国家AI产业基金首次投资具身智能企业;机器人已在多个城市实现7×24小时零售仓稳定运营。
反方 / 局限
- — AstraBrain-WBC 0.5仍是纯运动追踪模型,不具备对物体、环境的语义理解,也无法直接感知周围环境和执行具体任务(如抓取)。
- — 论文作者明确提出,下一步需与视觉-语言-动作(VLA)模型对接,加入视觉、触觉、语言多模态信息,才能迈向通用具身基础模型。当前模型在语义理解和环境交互上存在明显短板。
银河通用机器人Galbot G1AstraBrain-WBC 0.5Harmonic Motion EmbeddingScaling LawDAggerPPO因果Transformer王鹤人形机器人具身智能VLA模型宇树G1国家人工智能产业基金SONIC
14 分钟 · 4 卡片 · 12 资料
读原文 →