高质量数据集申报卡点明显,有些地方陷入“数据加工治理”思维
最近,事关高质量数据集,一个现实的问题摆在眼前。
这段时间,我们跑了不少企业、对接了多个地方相关部门,一个普遍且扎心的误区,反复出现在交流现场——很多人默认,高质量数据集就等于数据体量大,甚至觉得体量没达到TB级,都不配叫高质量数据集。
这种认知不是个别现象,已经体现到部分地方申报文件里,更蔓延到市场实操层面。

数据交易网的一线交流记录显示,有地方明确要求,申报高质量数据集专项补贴,数据体量需达到TB量级。
有企业坦言,为了凑够这个“硬指标”,不得不额外投入人力、财力,去标注大量无关数据,明明一小部分核心数据就能满足模型需求,却要做很多无用功。
这里我们需明确一个前提:我们绝对不否定高质量数据集的重要性。
当下AI发展日新月异,从通用大模型到行业垂直模型,每一步迭代都离不开高价值数据的支撑。国家层面密集出台政策引导建设,各部委、地方跟进配套要求,全行业对高质量数据集的重视,是AI产业走向成熟的必经之路,也是各行业高质量发展的刚需,这一点毋庸置疑。
但重视不等于盲从,更不能走进“唯体量论”的误区。为什么“体量至上”的认知,正在脱离市场和技术实际。
高质量数据集的关注度提升,始于2023年底。
2023年12月31日,国家数据局等17部门联合印发《“数据要素×”三年行动计划(2024-2026年)》,首次明确提出推动科研机构、龙头企业打造高质量人工智能大模型训练数据集,这是国家层面首次将高质量数据集纳入重点推进方向,也标志着其正式进入政策视野。
2024年是政策细化的关键一年。
这一年12月,国家发改委等部门联合印发《关于促进数据产业高质量发展的指导意见》,再次强调支持企业开发高质量数据集,同月发布的《关于促进数据标注产业高质量发展的实施意见》,进一步明确要加强重点行业领域数据标注,为高质量数据集建设铺路。
进入2025年,国家数据局发布《高质量数据集 建设指南》国标征求意见稿,首次给高质量数据集下了清晰定义,这也是后续我们判断误区的核心依据。
到了2026年5月,国家数据集管理服务平台正式发布,构建起覆盖数据集全生命周期的公共服务体系,进一步规范高质量数据集的建设、流通和应用。
从政策演进能清晰看出,国家层面的导向一直是“高质量”,而非“大体量”,每一份文件都在强调数据的实用性和价值,从未把体量作为核心指标。
很多人之所以陷入体量误区,本质上是没搞懂,建设高质量数据集的核心目的是什么。
结合数据交易网的交流记录和行业实操来看,高质量数据集的核心意义,就在于能真正提升模型的性能。简单说,就是把数据经过处理后,变成能直接用于模型开发、训练的“可用数据”,让模型在具体场景中更精准、更高效。
回到当下的市场实际,“唯体量论”的误区,已经给不少企业和部门带来了困扰。

这段时间,我们和十多家企业、多个地方相关部门做了深度交流,记录下了一些真实的声音,没有修饰,全是实操中的痛点。
一家做AI医疗辅助模型的中小企业负责人告诉我们,他们做的是罕见病诊断模型,核心需求是精准的病例数据和影像数据。
“我们只需要1000多份标注规范的罕见病病例,就能完成模型微调,让诊断准确率提升20%以上,这份数据集撑死也就几百个MB。”但他表示,当地申报高质量数据集补贴,要求体量必须达到1TB以上,如果为了拿补贴,他们就得额外找了大量数据进行标注,“额外花了几十万数据采购费用和标注费,耗时至少3个月,这些数据对模型性能提升一点用都没有,甚至会产生模型过拟合的反作用,纯粹是为了凑数,我们总不能为了拿补贴,先花大量成本搞一堆没用的数据吧,那没意义啊”。
还有一家做工业AI小模型的企业,聚焦纺织行业细分场景。其技术负责人告诉我们,工业小模型的核心是贴合生产流程,“我们只需要采集生产线‘人—
除了企业,我们也遇到过地方部门的困惑。
有地方数据局的工作人员私下交流时说,他们出台体量要求,初衷是为了保证数据集的“质量”,觉得体量大且经过数据治理等流程自然更有价值,“但实际推进中发现,很多企业为了凑体量,数据质量参差不齐,反而违背了政策初衷。”
其实,这些困扰的根源,在于对技术实操的不了解,以及对政策定义的误解。
国家数据局在《高质量数据集 建设指南》国标征求意见稿中,已经写得很清楚:“经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型性能的数据的集合。”
这句话的核心的是“能有效提升模型性能”,这是判断高质量数据集的唯一核心指标,从头到尾没有提过“体量”要求。
也就是说,不管是几百个MB的微小数据集,还是几个GB的中型数据集,还是几十TB的大数据集,只要能满足模型需求、提升模型性能,就是高质量数据集;反之,哪怕体量再大,也不符合要求。
从技术层面来说,当前AI模型性能提升的核心方式,是指令微调,而微调根本不需要大量数据。不能把模型性能的提升,与通用大模型的预训练混淆,预训练需要海量的数据集,可以是不经过治理、标注的原始数据。
数据交易网对接的AI技术专家解释,微调的关键是“精准”,把核心场景的少量数据,进行“输入—输出”的标准化标注,就能显著提升模型在该场景的性能。
“比如做客服对话模型,不需要百万条对话数据,只要几千条贴合行业场景的标注数据,就能让模型精准响应客户需求,再多无关数据,反而会增加模型训练的负担。”
一味追求TB级体量,还会大幅增加企业的成本。

数据标注、数据治理本身就是高成本环节,尤其是垂类行业,标注人才稀缺,比如法律、医疗等领域,交叉型标注人才难寻,每一条精准标注的数据都需要投入不少成本。
如果为了凑体量,去标注大量无关数据,不仅浪费人力物力,还会让企业陷入“为了申报政策而建设数据集”的误区,偏离了数据集建设的核心目的。
这里必须强调,我们不是反对大数据集,更不是否定建设高质量数据集的热情。
我们反对的,是“唯体量论”的片面认知,是脱离市场实际、脱离技术需求的“恶性竞赛”——你要求1TB,我就搞5TB,他就冲10TB,大家比拼的不是数据质量和实际价值,而是单纯的体量数字,最后不仅浪费资源,还会阻碍高质量数据集的健康发展。
数据交易网的统计市场公开数据显示,各大数据交易所挂牌了不少于2000TB的数据集,但其中真正实现高频复用、能有效提升模型性能的,不少是体量不大但标注精准的垂类数据集。某交易所人员也提到,高质量数据集的核心需求是构建行业知识底座,而非单纯追求体量。
交流中,不少业内人士也给出了自己的建议。
当前高质量数据集建设的核心痛点,是目标定位模糊、实施路径碎片化,很多人没有深入研究模型真正需要什么样的数据,只是盲目加工、堆砌数据,“未来应该引导行业聚焦场景需求,以‘能用、好用’为核心,构建标准化的建设流程。”
数据交易网CEO张瑶表示,应结合不同行业的场景特点,并且以模型的实际需求为核心,制定差异化的评价标准,“比如农业、商贸等垂类领域,本身基础数据就少,强行要求TB级体量,只会让企业望而却步。”
这段时间的调查下来,我们最大的感受是,高质量数据集的建设,不该是一场“体量竞赛”,而该是一场“价值竞赛”。
政策的初衷是引导市场打造高价值数据,助力AI产业发展,企业的核心需求是通过数据集提升模型性能、解决业务问题,这两者本应同向而行,不该因为认知误区而背道而驰。
面向未来,我们不期待一蹴而就改变所有认知,只希望更多地方、企业能冷静下来,回归高质量数据集的本质——能有效提升模型性能,能解决实际问题,就是好的数据集,不在乎数据体量。
毕竟,AI发展需要的是有价值的数据,而不是一堆堆没有意义的数字积累。
就像一位企业工作人员说的,建设高质量数据集,就像做饭,核心是食材新鲜、做法得当,能做出好吃的菜,而不是一味追求食材的数量,哪怕买再多食材,做得不好吃,也没有意义。
目前,这场关于高质量数据集的理解纠偏,才刚刚开始。我们会持续跟踪,记录下行业的每一点变化,也期待看到更多真正有价值、贴合实际的高质量数据集,在AI产业的发展中,发挥真正的作用。




















评论 0