新媒体矩阵

数交网评|国家数据局首次系统性部署行业高质量数据集建设

到2028年底建成一批覆盖重点领域、经过应用验证的行业高质量数据集,形成“场景牵引数据、数据驱动模型、模型赋能应用、应用创造价值”的良性循环。

6月8日,国家数据局正式印发《关于推进行业高质量数据集建设行动的实施方案》,这是国家层面首次对行业高质量数据集建设与发展作出系统性部署。文件围绕数据供给、流通、应用全链条,明确六大专项行动,为AI产业提供高质量“燃料”储备。

方案提出到2028年底建成一批覆盖重点领域、经过应用验证的行业高质量数据集,形成“场景牵引数据、数据驱动模型、模型赋能应用、应用创造价值”的良性循环。六大专项行动具体包括强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放,覆盖从数据采集到价值实现的完整链路。

文件同步提出探索以词元(token)为基础的价值体系和新型交易模式,将“词元经济”纳入政策视野。同时要求面向AI应用需求,推进文本、代码、图像、音频、视频、点云、时序数据、科学数据等多模态高质量数据集建设,适配预训练、指令微调、强化学习、测评等各阶段需求。

当前行业数据集建设呈现规模快速增长与结构性矛盾并存的态势。截至2026年第一季度,全国已建成高质量数据集超11.6万个,总体量超960PB,日均Token调用量突破140万亿。但现实痛点同样突出,高质量供给不足与低水平重复建设并存;高成本加工与低价值回报错配,数据清洗、专家标注、质量测评等环节投入巨大,市场化定价机制尚未形成;高技术要求与低人才储备脱节,既懂行业机理又懂数据标注的复合型人才严重短缺。

医疗、工业、航空航天等专业领域数据采集、清洗、标注的门槛和成本极高,中小企业难以独立承担。同时,数据确权、定价、安全合规的机制尚未完善,跨部门、跨区域数据共享难度大,大量数据仍处于“沉睡”状态。市场研究人士指出,AI正向智能体、科学智能、具身智能方向演进,对行业数据的专业性、结构性、场景性和可验证性提出更高要求,现有数据体系难以匹配这些新需求。

工业和信息化部此前已启动工业数据筑基行动,开展面向AI赋能的高质量行业数据集建设先行先试。数据标注产业规模快速扩大,2025年市场规模突破300亿元,同比增长45%,标注工具自动化率提升至68%,但专家标注资源仍显紧张。

此次方案落地将加速数据要素市场化配置改革,持续推动数据要素从“资源”向“资产”转变。地方数据管理部门已开始组织实施,部分省份计划设立专项资金支持重点领域数据集建设,鼓励行业龙头企业牵头组建数据联盟,共建共享高质量数据资源。

到2028年,随着方案各项措施逐步落地,行业高质量数据集供给能力将显著提升,数据标注产业规模化、专业化水平进一步提高,数据流通交易机制更加完善,为人工智能技术创新和产业应用提供坚实数据支撑。

市场对优质数据的付费意愿逐步增强,数据要素价值释放路径更加清晰,数据驱动的产业智能化转型将进入新阶段。

微信图片_2026-04-25_080029_572.png

评论 0