6.2
深览指数
科技量子位·衡宇··AI 生成

全球首个人形机器人通用小脑来了!全球最大规模2万小时人类动作数据,实现零样本泛化

银河通用机器人发布AstraBrain-WBC 0.5,一个基于20亿帧人类动作数据训练、8040万参数级别的人形机器人全身实时运控大模型。该模型首次验证了机器人运动控制领域的Scaling Law,随着数据与模型规模增长,零样本泛化与鲁棒性持续提升,跟踪误差下降,成功率从83%提升至93%。文章亮点在于将GPT式因果Transformer架构引入运控,并开源全部技术成果,但对模型在物理世界落地的具体挑战(如功耗、可靠性、非结构化环境)避而不谈,适合关注机器人基础模型与具身智能前沿的从业者阅读。原文 ↗

核心观点
  • AstraBrain-WBC 0.5首次将GPT式规模化训练范式引入人形机器人实时运控,验证了运动控制领域的Scaling Law:数据与模型规模增长可带来持续的泛化与鲁棒性提升。
  1. 01模型基于约20亿帧(2万小时)人类动作数据训练,覆盖舞蹈、运动、工业操作等场景,动作空间覆盖范围相比AMASS数据集提升4-5倍。
  2. 02模型采用GPT风格的因果Transformer架构,将全身控制重新定义为连续序列预测问题,并构建了384个动作专家组成的运动先验库。
  3. 03在29自由度机器人上实现全身协同控制,可以零样本执行篮球、拳击、舞蹈等训练集未出现的高动态动作。
  4. 04端到端推理延迟低于1.5毫秒(RTX 4090),整个动捕链路延迟小于20毫秒,满足50Hz闭环控制需求。
  5. 05随着数据规模从200万帧扩展至20亿帧,模型零样本跟踪误差持续下降,成功率从83.26%提升至92.58%。
  6. 06模型参数规模8040万,为GPT-1量级,超越此前业界代表工作GAE(约1000万参数)和SONIC(约1000-2000万参数)的数量级。
  7. 07AstraBrain-WBC 0.5已开源论文、代码与技术成果。
反方 / 局限
  • 文章只讨论了基于RTX 4090的实验室推理延迟,未提及在机载边缘计算设备上的实际推理性能与功耗。
  • 所有演示均为动捕室内受控环境的零样本执行,未提供真实非结构化场景(如户外地形、光照变化、动态障碍物)下的鲁棒性测试数据。
银河通用机器人AstraBrain-WBC 0.5银河星脑因果TransformerScaling LawAMASS数据集GAESONIC
11 分钟 · 3 卡片 · 7 资料
读原文 →

前置背景

平行视角

延伸追问