【科技资讯】首次，纯人类视频预训练VLA灵巧操作，少量数据微调就能部署成功

📌 信息分类：数据要素

📰 信息来源：www.36kr.com

📅 原文发布时间：2026-06-08 16:39

🕒 本站采集时间：2026-06-11 17:30:46

📝 核心摘要

2026年6月8日，科技媒体量子位发布由微软亚洲研究院与清华大学联合团队完成的机器人领域突破性研究成果，针对长期以来机器人学领域追求人类级灵巧操作的核心痛点——即现有多指灵巧手硬件潜力充足，但高质量机器人动作数据采集成本极高，导致视觉-语言-动作（VLA）模型的规模与多样性远落后于大语言模型、视觉语言模型，无法适配真实世界复杂任务需求的行业共性难题，推出名为VITRA的全新可扩展机器人操作预训练框架，首次实现完全基于纯人类公开活动视频完成VLA模型预训练，仅需少量机器人侧数据微调即可落地部署，为行业开辟了低成本获取海量训练数据的全新路径。
该研究搭建了全自动化的非结构化人类视频转结构化VLA训练数据的完整链路，无需人工标注即可完成三大核心处理环节：一是通过单目3D视觉技术精准恢复无标定移动相机拍摄视频中的手部与相机轨迹，输出高精度3D手部动作标签；二是基于人类动作转换期的手部速度极小值特征，实现无额外成本的长视频原子级动作切分；三是将叠加3D手部轨迹的采样帧输入GPT-4生成精准动作指令，最终构建出包含100万个独立片段、总计2600万帧的超大规模手部VLA数据集，彻底打破了此前机器人训练数据的规模瓶颈。
基于该数据集完成预训练的VLA模型，在完全未见过的真实生活场景中展现出远超EgoDex等传统实验室数据集训练模型的零样本手部动作预测能力，适配星动纪元自研的国内首创全直驱五指灵巧手星动XHAND1后，仅需约1200条真实机器人遥操作数据完成微调，即可稳定执行抓取、放置、倾倒、清扫等多类复杂灵巧操作任务，面对未知物体与陌生场景的鲁棒性显著优于现有主流预训练方案，实现了算法与硬件的深度软硬协同。
该研究还首次验证了机器人VLA预训练领域明确的数据缩放定律，即随着预训练人类视频数据规模的持续提升，模型零样本预测误差将稳步下降、真实场景任务成功率将持续走高，证明后续可通过低成本扩充人类视频数据集的方式不断迭代模型性能。这一成果大幅降低了通用机器人训练数据的获取门槛，为多指灵巧手在工业、服务等多元场景的规模化落地扫清了核心数据障碍，也为通用具身智能的长期发展筑牢了底层技术基础。

🔗 阅读原文

👉 首次，纯人类视频预训练VLA灵巧操作，少量数据微调就能部署成功

🏷️ 标签：VITRA预训练框架, 视觉语言动作模型(VLA), 机器人灵巧操作, 具身智能, 机器人训练数据集

本文由科普头条 AI 自动采集发布，内容仅代表作者观点