【科技资讯】时薪800、学历硕士起：大厂热抢的AI数据“炼金师”到底在做什么？

📌 信息分类：数据要素

📰 信息来源：www.36kr.com

📅 原文发布时间：2026-05-21 07:48

🕒 本站采集时间：2026-05-22 06:12:49

📝 核心摘要

时薪800、学历硕士起：大厂热抢的AI数据“炼金师”到底在做什么？智东西·2026年05月21日 07:48数据标注正成为一项更有技术含量的工作。
在公众的传统认知里，AI数据标注始终带着某种“数字流水线”的色彩。
它通常意味着坐在电脑前，重复处理着图片、语音或文本，比如给自动驾驶图像逐一框出行人与车辆，为语音系统一句句校对字幕，或者按照既定规则为数据打上标签。其低门槛、低薪资、机械性的特质，堪比AI时代的“电子厂”。
但当大模型浪潮席卷AI行业之后，数据标注行业开始出现一种出人意料的变化。虽然传统数据标注工作仍有庞大需求，但越来越多AI企业，尤其是头部大模型厂商，正在寻找一种更有技术含量的新型标注员。
如今，阿里、字节、DeepSeek、MiniMax等企业的一些相关岗位，不再冠以“数据标注”的名称，而是改名为“数据百晓生”、“AI出题专家”、“数据炼金师”等等。
能力要求也随之变化。不少岗位的学历要求提高到硕士及以上，拥有法律、金融、医学、编程、语言学等专业背景，或是具备丰富从业经验和竞赛经历的人才更为吃香。

要求提升后，这些岗位的薪资待遇也有可观的上浮。在Boss直聘等招聘平台上，金融、法律、医学等垂类任务已经出现每小时500-800元的报价。即便是在大厂做外包岗，这类岗位的月薪也从传统数据标注三四千元的水平，提高到8000-10000元左右的水平。
大模型时代的数据标注，正在成为一种复杂得多的职业。而这一变化背后，其实对应着AI产业自身的一次转向。
01.AI数据标注，为什么突然需要专家？
大模型行业的数据供给模式，正在发生变化。
早期大模型的训练高度依赖海量公开数据，厂商抓取互联网文本、图片和视频，让模型学习语言规律与世界知识。在这一阶段，算力、参数和数据规模很大程度上决定了模型能力上限，这也构成了预训练阶段的Scaling Law。
然而，互联网上的数据终归是有限的。2024年，OpenAI前首席科学家Ilya Sutskever就曾提出一个观点，互联网上用于训练模型的数据即将枯竭，这可能会终结我们过去所熟知的预训练范式。
具体到中文上，这一数据短缺的问题可能会更严重。阿里研究院发布的《大模型训练数据白皮书》显示，互联网上中文语料和英文语料占比存在显著差异，英文语料占比高达59.8%，而中文语料仅占1.3%。
同时，互联网数据并非天然的高质量资源，其中…

🔗 阅读原文

👉 时薪800、学历硕士起：大厂热抢的AI数据“炼金师”到底在做什么？

🏷️ 标签：数据要素

本文由科普头条 AI 自动采集发布，内容仅代表作者观点