8.2
深览指数
商业TechCrunch·Tim Fernholz··AI 生成

收集机器人训练数据是肮脏、不体面的工作。一些AI实验室已经为此向XDOF付费。

文章揭示了一个被忽视的AI基础设施新赛道:机器人物理交互训练数据的收集与处理。与语言模型不同,机器人需要的高质量物理交互数据极其稀缺,且采集方式依赖大量人力(远程操作员、可穿戴传感器佩戴者),这是一项规模庞大的劳动密集型工作。XDOF是一家刚成立的初创公司,已获7000万美元融资,通过构建完整的数据收集管道和标注系统,向OpenAI等前沿AI实验室提供机器人训练数据基础设施。文章点明了物理AI的瓶颈在于数据反馈闭环而非模型或芯片,并详细拆解了XDOF的三层数据金字塔策略及其商业逻辑。原文 ↗

核心观点
  • 机器人领域最大的瓶颈不是模型或芯片,而是高质量物理交互训练数据的匮乏,这正在催生一个新的数据基础设施行业。
  • XDOF这类数据中间商的价值在于,为AI实验室提供了一个难以自建的、包含硬件设计、人员培训和数据处理反馈闭环的复杂系统。
  1. 01XDOF已从Thrive Capital、a16z等机构融资7000万美元,团队约60人,并已与包括几家前沿AI实验室在内的20个客户合作。
  2. 02XDOF联合创始人在UC Berkeley攻读博士期间,尝试通过大规模数据集让机器人学习技能,但发现核心问题是“没有大规模数据可用”,形成了鸡生蛋蛋生鸡的困境。
  3. 03XDOF与UC Berkeley AI实验室合作发布了名为ABC的机器人训练数据集,包含130,000条机器人操作轨迹、300小时模拟数据和100小时评估数据,据称是学术机构迄今获得的最大规模高质量机器人训练数据。
  4. 04XDOF的数据采集策略分为三档:一是直接在部署的目标机器人上进行遥操作采集;二是使用通用遥操作设备(如GELLO)采集;三是让人类佩戴公司自研的可穿戴传感器完成日常任务,采集“以自我为中心”的视频数据。
  5. 05XDOF计划在全球范围招募和培训大量远程操作员,需要配备包含数百台机器人数十万平方英尺的仓库,且需承担机器人维护、标定和操作员培训工作。
  6. 06OpenAI于2024年12月宣布重启其2021年关闭的机器人项目,这被看作是AI实验室加速研发物理具身智能的最新信号。
反方 / 局限
  • 文章暗示了XDOF商业模式的一个核心风险:如果只提供原始数据,这可能是门“死胡同生意”(dead-end business)。公司因此试图通过数据清洗、标注和工具链来形成自我强化的反馈闭环,以避免被轻易取代或商品化。
  • 文章隐含了XDOF模式的一个前提:AI实验室愿意并且能够持续将这类数据工作外包,且XDOF形成的规模化和专业化优势是实验室内部无法复制的。如果实验室最终选择自建或培养内部能力,或出现新的、更自动化的数据合成方法,XDOF的市场基础将受到侵蚀。
XDOFOpenAIThrive CapitalSpark Capitala16zLux CapitalWndrCoUC BerkeleyPhilipp WuFred ShentuNemo JinDavid McAllisterGELLOABC数据集遥操作以自我为中心的数据物理人工智能Figure AI
12 分钟 · 4 卡片 · 8 资料
读原文 →

前置背景

商业模式

平行视角

延伸追问