具身数据采集产业链调查：被机器人采集的人

8.0

深览指数

科技Bestblogs·甲子光年·昨天 18:57·AI 生成

具身数据采集产业链调查：被机器人采集的人

本文是对具身智能数据采集产业链的深度调查。核心发现：数据缺口达2-3个数量级，产业正从真机遥操转向成本更低的无本体采集（UMI/Ego），但大型数采场面临盈利困境与数据利用率低的“漏斗”问题。不同于一般的技术报道，文章将镜头对准数采员、劳务中介等底层参与者，揭示了数据采集正从技术问题演变为组织与劳动管理问题。适合关注机器人产业现状、AI数据基础设施及新业态劳动者权益的读者。原文 ↗原文 ↗

核心观点

▍具身智能数据缺口巨大，现有数据量仅为需求量的千分之一到百分之一，这迫使产业寻求降低成本、扩大规模的新采集路径。
▍数据采集正从技术问题演变为组织问题，劳务中介和真实场景方（工厂、酒店）开始扮演比纯技术公司更关键的角色。

01觅蜂科技CEO姚卯青指出，达到GPT-3.5级别的类人能力约需一亿小时数据，目前全球有效数据仅几十万小时，差距2-3个数量级。
02数据采集模式正快速演变：从机器人公司自建实验室，到国资参与的大型数采场（如北京人形机器人创新中心），再到2025年后兴起的无本体采集（UMI/Ego）路线。
03英伟达范麟熙提出用WAM模型和人类第一视角视频采集数据，试图替代成本高昂的真机遥操。
04大型数采场建设成本常超亿元，但由于机器人本体、采集设备、网络通信问题频发，数据经标注后有效利用率仅约50%，形成严重的“数据漏斗”。
05无本体采集模式催生了设备商，如觅蜂科技、灏存科技，它们通过传感器和软件将人体动作映射为数据，成本大幅降低。
06劳务中介利用自身招募和管理能力，成为连接设备商、工厂和数采员的关键节点，组织工人一边工作一边采集。
07数采员多为临时工或兼职，日薪100-300元，工作重复枯燥；居家采集存在隐私风险，不合格不结费是常见劳动纠纷点。

反方 / 局限

— 业界共识是短期内无本体采集无法完全替代真机数据，尤其在处理复杂精细操作任务时，遥操数据的精度和场景真实性暂时难以替代。
— 文章主要从技术降本和组织效率角度分析，未深入探讨大规模私有化数采可能引发的用户数据主权和伦理争议，以及监管缺位下的隐私泄露和劳动权益保障问题。

具身智能真机遥操无本体采集(UMI/Ego)英伟达北京人形机器人创新中心觅蜂科技灏存科技范麟熙姚卯青

3 分钟 · 3 卡片 · 9 资料

读原文 →

具身数据采集产业链调查：被机器人采集的人

前置背景

平行视角

延伸追问