人形机器人「小脑」的GPT时刻来了,还有史上最大动捕数据,整整20亿帧

7.7

深览指数

科技微博·机器之心Pro·昨天 09:31·AI 生成

人形机器人「小脑」的GPT时刻来了,还有史上最大动捕数据,整整20亿帧

银河通用发布全球首个人形机器人全身实时运控基座大模型 AstraBrain-WBC 0.5，用20亿帧动捕数据训练，零样本成功率从76.89%跃至92.58%，推理延迟仅0.39ms。作者核心贡献在于系统证明了Scaling Law在运动控制领域的有效性，并用因果Transformer+专家蒸馏架构解决了MLP/TCN的扩展瓶颈。适合关注具身智能技术突破与产业格局的读者。原文 ↗原文 ↗

核心观点

▍Scaling Law在人形机器人运动控制上成立：通过将数据量堆到同类研究的200倍以上(20亿帧)并换用GPT风格Transformer架构，模型性能随数据/参数增长持续提升，未出现饱和。
▍MLP/TCN架构的瓶颈并非数据少，而是架构本身的扩展性限制；换用因果Transformer后，性能随着数据与模型规模的扩大才能持续增长。

01标准AMASS测试集上，AstraBrain-WBC 0.5-L(20亿帧)的追踪成功率为92.58%，而同样200万帧下MLP为76.89%、TCN为81.48%，架构换代本身就带来提升。
02数据每扩大10倍，MPJPE误差持续下降，形成清晰的幂律曲线，这是Scaling Law在人形机器人运动控制上的第一个实证印记。
03真机测试中，在宇树G1机器人上进行四段未见舞蹈动作零样本追踪，AstraBrain-WBC 0.5在MPJPE指标上均低于或持平GMT、TWIST、Any2Track等最强开源方法。
04推理延迟降至0.39ms，控制回路50Hz实时运行，比TWIST(均值2.79ms)速度提升约5倍，得益于针对因果注意力和MLP融合算子的内核优化。
05通过谐波运动嵌入(HME)将20亿帧动作数据聚类成约300个风格各异的动作簇，实现多样性感知均衡采样，解决了大规模数据中常见动作淹没稀有动作的问题。
06采用“先分后合”策略：在300个动作族上各训练PPO专家，再用DAgger蒸馏框架将384个专家压缩为单Transformer通才模型，部署时只需一个模型。
07整个训练耗时约15000 GPU小时，其中75%用于专家训练(RTX 4090)，25%用于Transformer蒸馏(H100)，最终模型参数达8040万级别。
08银河通用已完成超3亿美元融资(2025.12)和25亿元融资(2026.3)，国家AI产业基金首次投资具身智能企业；机器人已在多个城市实现7×24小时零售仓稳定运营。

反方 / 局限

— AstraBrain-WBC 0.5仍是纯运动追踪模型，不具备对物体、环境的语义理解，也无法直接感知周围环境和执行具体任务(如抓取)。
— 论文作者明确提出，下一步需与视觉-语言-动作(VLA)模型对接，加入视觉、触觉、语言多模态信息，才能迈向通用具身基础模型。当前模型在语义理解和环境交互上存在明显短板。

银河通用机器人Galbot G1AstraBrain-WBC 0.5Harmonic Motion EmbeddingScaling LawDAggerPPO因果Transformer王鹤人形机器人具身智能VLA模型宇树G1国家人工智能产业基金SONIC

14 分钟 · 4 卡片 · 12 资料

读原文 →

人形机器人「小脑」的GPT时刻来了,还有史上最大动捕数据,整整20亿帧

前置背景

技术原理

平行视角

延伸追问