8.0
深览指数
科技Bestblogs·甲子光年··AI 生成
具身数据采集产业链调查:被机器人采集的人
本文是对具身智能数据采集产业链的深度调查。核心发现:数据缺口达2-3个数量级,产业正从真机遥操转向成本更低的无本体采集(UMI/Ego),但大型数采场面临盈利困境与数据利用率低的“漏斗”问题。不同于一般的技术报道,文章将镜头对准数采员、劳务中介等底层参与者,揭示了数据采集正从技术问题演变为组织与劳动管理问题。适合关注机器人产业现状、AI数据基础设施及新业态劳动者权益的读者。原文 ↗
核心观点
- ▍具身智能数据缺口巨大,现有数据量仅为需求量的千分之一到百分之一,这迫使产业寻求降低成本、扩大规模的新采集路径。
- ▍数据采集正从技术问题演变为组织问题,劳务中介和真实场景方(工厂、酒店)开始扮演比纯技术公司更关键的角色。
- 01觅蜂科技CEO姚卯青指出,达到GPT-3.5级别的类人能力约需一亿小时数据,目前全球有效数据仅几十万小时,差距2-3个数量级。
- 02数据采集模式正快速演变:从机器人公司自建实验室,到国资参与的大型数采场(如北京人形机器人创新中心),再到2025年后兴起的无本体采集(UMI/Ego)路线。
- 03英伟达范麟熙提出用WAM模型和人类第一视角视频采集数据,试图替代成本高昂的真机遥操。
- 04大型数采场建设成本常超亿元,但由于机器人本体、采集设备、网络通信问题频发,数据经标注后有效利用率仅约50%,形成严重的“数据漏斗”。
- 05无本体采集模式催生了设备商,如觅蜂科技、灏存科技,它们通过传感器和软件将人体动作映射为数据,成本大幅降低。
- 06劳务中介利用自身招募和管理能力,成为连接设备商、工厂和数采员的关键节点,组织工人一边工作一边采集。
- 07数采员多为临时工或兼职,日薪100-300元,工作重复枯燥;居家采集存在隐私风险,不合格不结费是常见劳动纠纷点。
反方 / 局限
- — 业界共识是短期内无本体采集无法完全替代真机数据,尤其在处理复杂精细操作任务时,遥操数据的精度和场景真实性暂时难以替代。
- — 文章主要从技术降本和组织效率角度分析,未深入探讨大规模私有化数采可能引发的用户数据主权和伦理争议,以及监管缺位下的隐私泄露和劳动权益保障问题。
3 分钟 · 3 卡片 · 9 资料
读原文 →