高质量数据集申报卡点明显，有些地方陷入“数据加工治理”思维

数据交易网

发布于 2026-05-11

数据生态算力人工智能

全行业对高质量数据集的重视，是AI产业走向成熟的必经之路，也是各行业高质量发展的刚需，这一点毋庸置疑。

最近，事关高质量数据集，一个现实的问题摆在眼前。

这段时间，我们跑了不少企业、对接了多个地方相关部门，一个普遍且扎心的误区，反复出现在交流现场——很多人默认，高质量数据集就等于数据体量大，甚至觉得体量没达到TB级，都不配叫高质量数据集。

这种认知不是个别现象，已经体现到部分地方申报文件里，更蔓延到市场实操层面。

数据交易网的一线交流记录显示，有地方明确要求，申报高质量数据集专项补贴，数据体量需达到TB量级。

有企业坦言，为了凑够这个“硬指标”，不得不额外投入人力、财力，去标注大量无关数据，明明一小部分核心数据就能满足模型需求，却要做很多无用功。

这里我们需明确一个前提：我们绝对不否定高质量数据集的重要性。

当下AI发展日新月异，从通用大模型到行业垂直模型，每一步迭代都离不开高价值数据的支撑。国家层面密集出台政策引导建设，各部委、地方跟进配套要求，全行业对高质量数据集的重视，是AI产业走向成熟的必经之路，也是各行业高质量发展的刚需，这一点毋庸置疑。

但重视不等于盲从，更不能走进“唯体量论”的误区。为什么“体量至上”的认知，正在脱离市场和技术实际。

高质量数据集的关注度提升，始于2023年底。

2023年12月31日，国家数据局等17部门联合印发《“数据要素×”三年行动计划(2024-2026年)》，首次明确提出推动科研机构、龙头企业打造高质量人工智能大模型训练数据集，这是国家层面首次将高质量数据集纳入重点推进方向，也标志着其正式进入政策视野。

2024年是政策细化的关键一年。

这一年12月，国家发改委等部门联合印发《关于促进数据产业高质量发展的指导意见》，再次强调支持企业开发高质量数据集，同月发布的《关于促进数据标注产业高质量发展的实施意见》，进一步明确要加强重点行业领域数据标注，为高质量数据集建设铺路。

进入2025年，国家数据局发布《高质量数据集建设指南》国标征求意见稿，首次给高质量数据集下了清晰定义，这也是后续我们判断误区的核心依据。

到了2026年5月，国家数据集管理服务平台正式发布，构建起覆盖数据集全生命周期的公共服务体系，进一步规范高质量数据集的建设、流通和应用。

从政策演进能清晰看出，国家层面的导向一直是“高质量”，而非“大体量”，每一份文件都在强调数据的实用性和价值，从未把体量作为核心指标。

很多人之所以陷入体量误区，本质上是没搞懂，建设高质量数据集的核心目的是什么。

结合数据交易网的交流记录和行业实操来看，高质量数据集的核心意义，就在于能真正提升模型的性能。简单说，就是把数据经过处理后，变成能直接用于模型开发、训练的“可用数据”，让模型在具体场景中更精准、更高效。

回到当下的市场实际，“唯体量论”的误区，已经给不少企业和部门带来了困扰。

这段时间，我们和十多家企业、多个地方相关部门做了深度交流，记录下了一些真实的声音，没有修饰，全是实操中的痛点。

一家做AI医疗辅助模型的中小企业负责人告诉我们，他们做的是罕见病诊断模型，核心需求是精准的病例数据和影像数据。

“我们只需要1000多份标注规范的罕见病病例，就能完成模型微调，让诊断准确率提升20%以上，这份数据集撑死也就几百个MB。”但他表示，当地申报高质量数据集补贴，要求体量必须达到1TB以上，如果为了拿补贴，他们就得额外找了大量数据进行标注，“额外花了几十万数据采购费用和标注费，耗时至少3个月，这些数据对模型性能提升一点用都没有，甚至会产生模型过拟合的反作用，纯粹是为了凑数，我们总不能为了拿补贴，先花大量成本搞一堆没用的数据吧，那没意义啊”。

还有一家做工业AI小模型的企业，聚焦纺织行业细分场景。其技术负责人告诉我们，工业小模型的核心是贴合生产流程，“我们只需要采集生产线‘人—机—料—法—环’的核心数据，标注后就能训练出适配的小模型，缩短研发周期。但申报要求TB级体量，如果这样硬性要求，我们只能硬着头皮去采集大量重复数据，不仅增加了数据治理的成本，还拖慢了模型落地的速度。”

除了企业，我们也遇到过地方部门的困惑。

有地方数据局的工作人员私下交流时说，他们出台体量要求，初衷是为了保证数据集的“质量”，觉得体量大且经过数据治理等流程自然更有价值，“但实际推进中发现，很多企业为了凑体量，数据质量参差不齐，反而违背了政策初衷。”

其实，这些困扰的根源，在于对技术实操的不了解，以及对政策定义的误解。

国家数据局在《高质量数据集建设指南》国标征求意见稿中，已经写得很清楚：“经过采集、加工等数据处理，可直接用于开发和训练人工智能模型，能有效提升模型性能的数据的集合。”

这句话的核心的是“能有效提升模型性能”，这是判断高质量数据集的唯一核心指标，从头到尾没有提过“体量”要求。

也就是说，不管是几百个MB的微小数据集，还是几个GB的中型数据集，还是几十TB的大数据集，只要能满足模型需求、提升模型性能，就是高质量数据集；反之，哪怕体量再大，也不符合要求。

从技术层面来说，当前AI模型性能提升的核心方式，是指令微调，而微调根本不需要大量数据。不能把模型性能的提升，与通用大模型的预训练混淆，预训练需要海量的数据集，可以是不经过治理、标注的原始数据。

数据交易网对接的AI技术专家解释，微调的关键是“精准”，把核心场景的少量数据，进行“输入—输出”的标准化标注，就能显著提升模型在该场景的性能。

“比如做客服对话模型，不需要百万条对话数据，只要几千条贴合行业场景的标注数据，就能让模型精准响应客户需求，再多无关数据，反而会增加模型训练的负担。”

一味追求TB级体量，还会大幅增加企业的成本。

数据标注、数据治理本身就是高成本环节，尤其是垂类行业，标注人才稀缺，比如法律、医疗等领域，交叉型标注人才难寻，每一条精准标注的数据都需要投入不少成本。

如果为了凑体量，去标注大量无关数据，不仅浪费人力物力，还会让企业陷入“为了申报政策而建设数据集”的误区，偏离了数据集建设的核心目的。

这里必须强调，我们不是反对大数据集，更不是否定建设高质量数据集的热情。

我们反对的，是“唯体量论”的片面认知，是脱离市场实际、脱离技术需求的“恶性竞赛”——你要求1TB，我就搞5TB，他就冲10TB，大家比拼的不是数据质量和实际价值，而是单纯的体量数字，最后不仅浪费资源，还会阻碍高质量数据集的健康发展。

数据交易网的统计市场公开数据显示，各大数据交易所挂牌了不少于2000TB的数据集，但其中真正实现高频复用、能有效提升模型性能的，不少是体量不大但标注精准的垂类数据集。某交易所人员也提到，高质量数据集的核心需求是构建行业知识底座，而非单纯追求体量。

交流中，不少业内人士也给出了自己的建议。

当前高质量数据集建设的核心痛点，是目标定位模糊、实施路径碎片化，很多人没有深入研究模型真正需要什么样的数据，只是盲目加工、堆砌数据，“未来应该引导行业聚焦场景需求，以‘能用、好用’为核心，构建标准化的建设流程。”

数据交易网CEO张瑶表示，应结合不同行业的场景特点，并且以模型的实际需求为核心，制定差异化的评价标准，“比如农业、商贸等垂类领域，本身基础数据就少，强行要求TB级体量，只会让企业望而却步。”

这段时间的调查下来，我们最大的感受是，高质量数据集的建设，不该是一场“体量竞赛”，而该是一场“价值竞赛”。

政策的初衷是引导市场打造高价值数据，助力AI产业发展，企业的核心需求是通过数据集提升模型性能、解决业务问题，这两者本应同向而行，不该因为认知误区而背道而驰。

面向未来，我们不期待一蹴而就改变所有认知，只希望更多地方、企业能冷静下来，回归高质量数据集的本质——能有效提升模型性能，能解决实际问题，就是好的数据集，不在乎数据体量。

毕竟，AI发展需要的是有价值的数据，而不是一堆堆没有意义的数字积累。

就像一位企业工作人员说的，建设高质量数据集，就像做饭，核心是食材新鲜、做法得当，能做出好吃的菜，而不是一味追求食材的数量，哪怕买再多食材，做得不好吃，也没有意义。

目前，这场关于高质量数据集的理解纠偏，才刚刚开始。我们会持续跟踪，记录下行业的每一点变化，也期待看到更多真正有价值、贴合实际的高质量数据集，在AI产业的发展中，发挥真正的作用。

微信图片_2026-04-25_080029_572.png

高质量数据集申报卡点明显，有些地方陷入“数据加工治理”思维

为您推荐

评论 0