【科技资讯】缺口越深，金矿越纯？数据饥荒里造富狂潮来袭

📌 信息分类：数据要素

📰 信息来源：www.36kr.com

📅 原文发布时间：2026-05-12 09:39

🕒 本站采集时间：2026-05-13 06:08:15

📝 核心摘要

2026年5月12日，亿欧网发布的《缺口越深，金矿越纯？数据饥荒里造富狂潮来袭》聚焦具身智能赛道的数据困境与产业机遇。国家“十五五”将实训场升为国家级战略，2026年一季度该赛道融资超200亿元，同比增长近60%，资本、算法、算力齐发力，但斯坦福《2026AI指数报告》揭示严重问题：机器人仿真场景操作成功率达89.4%，真实家庭场景骤降77个百分点至12.4%，核心瓶颈为“数据饥荒”——GPT-5训练语料达100亿小时，全行业高质量具身数据仅50万小时，真机采集每小时成本500至1000元，市场呈现“有多少要多少”的卖方市场状态。

具身智能落地难源于三重数据天堑。当前AI为无感受的统计智能，缺少物理世界的“体感”与“力觉”，图灵奖得主Yann LeCun提出需构建“世界模型”（物理世界预习系统），但训练需高质量具身数据，这类数据与传统AI数据存在代际差异：前者是“做到”的行为证据，需毫秒级对齐、多模态融合、物理因果标注，而传统数据仅为“看见”的信号。中科院信通院许志远指出，具身智能数据需求是自动驾驶的上千倍、大语言模型的上百万倍，且面临“不可能三角”困境——精度、规模、成本无法同时满足，导致质（高标数据稀缺）、量（仅达涌现所需的5%）、维（场景碎片化，数据“一换就废”）三大痛点。

头部企业破解数据荒形成清晰分野与共识。重资产模式以优必选、智元机器人为代表：优必选在柳州、自贡建工业级数据采集中心，投超500台机器人，年产出超200000小时有效数据，自研Thinker大模型实现自动化标注，构建真实校准-虚拟扩容-模型迭代闭环；智元在上海投建4000平方米数据工厂，日均产3-5万条轨迹，累计超百万条，开源AgiBotWorld数据集（英伟达GR00TN1模型80%真机数据来源），2026年推出MEgo无本体采集硬件及一站式平台，目标2030年百亿小时产能。轻资产模式分生态开源（宇树科技，2025年底上线应用商店，依靠出货量换数据）与仿真合成（银河通用，自研管线每周产十亿级数据集，成本为真实采集的1%，LDA-1B模型实现数据融合复用）。行业共识为混合闭环：仿真/视频预训练+真机微调+开源生态反哺，以系统合力对冲单一路线短板。

数据已成为具身智能核心增长引擎，催生“卖铲人”赛道与底层基建布局。2026年1月湖北完成全国首单企业间具身智能数据交易，数据作为独立商品流通；智元旗下觅蜂科技以500-1000元/小时出售标准化数据集，鹿明、京东、它石智航推出采集工具；互联网大厂扮演“修路者”：京东自研设备联动60万采集大军，目标两年积累1000万小时数据；百度智能云推具身智能数据超市，华为上线Cloud Robo平台，阿里、腾讯、字节、美团以“投资+生态”开放场景。短期卖数据、卖工具是确定性生意，长期能定义数据流通标准、搭建交易基础设施的玩家将占据价值链高位，互联网大厂押注云平台与数据超市，争夺物理智能时代定义权。

🔗 阅读原文

👉 缺口越深，金矿越纯？数据饥荒里造富狂潮来袭

🏷️ 标签：具身智能,数据饥荒,世界模型,数据交易,采集工具

本文由科普头条 AI 自动采集发布，内容仅代表作者观点