新媒体矩阵

高质量数据集,中小企业玩不起

高质量数据集建设的核心壁垒,集中在资金、数据资源、技术能力和合规能力上。

最近,各地高质量数据集建设热度高涨。

我们梳理了全国多省市公开申报的项目清单,发现一个现实,80%的项目由国企牵头,剩下20%多为地方垂直行业龙头,广大中小企业很难参与其中。

141902050669108abafa2b4de8bf304e.png

为弄清出现这现象的原因,我们访谈了3家不同领域的建设企业,整理了一线真实反馈,梳理了高质量数据集的发展脉络,只为找到中小企业参与的最优路线。

我们对高质量数据集的兴起,有了清晰的时间脉络。

2024年12月,国家发改委等部门联合印发《关于促进数据产业高质量发展的指导意见》,首次明确提出“高质量数据集”。同月发布的《关于促进数据标注产业高质量发展的实施意见》,进一步明确要加强重点行业数据标注,推进相关建设。

2025年2月,国家数据局在北京召开高质量数据集建设工作启动会,明确要推动其建设、助力行业发展。

到2025年5月,《高质量数据集建设指南(征求意见稿)》发布,将数据集分为通识、行业通识、行业专识三类,进一步规范了建设标准。

今年以来,各地密集申报相关项目,京东、百度等大厂也纷纷布局具身智能相关数据集,建设热潮彻底铺开。

高质量数据集的定义并不复杂,它是经过系列数据处理,能直接用于人工智能模型训练,并能有效提升模型性能的数据集合。作为支撑人工智能、具身智能发展的核心原材料,它就像石油之于汽车,需经过“炼化”才能发挥价值。

对于高质量数据集的建设,我们梳理出几个突出特质。

投入上,并非简单拼凑数据,从采集、标注到质检,全流程都需要资金支撑;门槛方面,需具备成熟的业务场景、完善的信息化系统和专业的数据治理能力;场景绑定上,多数数据集针对特定行业打造,缺乏相关业务支撑便无法落地;合规层面,必须严格遵循《个人信息保护法》《数据安全法》,脱敏、授权等环节缺一不可。

上海某科技公司,专注于具身智能领域的数据采集以及后续的数据整理工作。

负责人李文(化)介绍,他们自主搭建了近2000平的真实采集场景,覆盖家居、工业、商超等多个领域,累计采集超百万条动作轨迹,数据规模超700TB,资金投入超千万。

“光采集设备就花了几百万,我们还组建了专业的标注和质检团队,建立起‘采集+自动化标注+人工审核’的三重机制,数据准确性要求达到98%以上。”李文说,他们的数据集已开源共享,被企业用于具身基座模型训练。

李文介绍,即便如此,前期也靠扶持和大额投入才撑下来,中小企业根本扛不住这样的成本压力。

84837c7d452d2395509e60fbf8a3d96f.png

某省级能源国企,负责能源领域高质量数据集建设。

数据部门负责人张经理介绍,他们的数据集核心是电网调度、设备健康诊断等相关数据,这些数据是他们的业务留存,完全合法合规获取,其他企业连接触数据的机会都没有。

“我们有完整的业务数据积累,还有专门的团队负责数据治理,每年投入在数据建设上的资金就达千万。”他提出,中小企业既没有核心数据资源,也没这么多资金,根本无从参与。

一家专注于数据服务的龙头企业,主要做语音、文本类高质量数据集。

相关负责人给我们算了一笔账:一个中等规模的行业数据集,采集、标注、质检下来,至少要投入300万以上,周期需3-6个月,还得有专业的技术团队和标注规范。

他补充,数据标注看似简单,实则有严格的SOP规范,一套高质量数据集的建设,没有那么容易。

总结来看,基本印证了我们的观察,当前高质量数据集建设,仍以大企业为主导。中小企业不是不想参与,而是确实缺乏相应的能力。高质量数据集建设的核心壁垒,集中在资金、数据资源、技术能力和合规能力上。

大企业尤其是国企,业务覆盖广、信息化程度高,掌握核心业务数据,还有足够的资金和团队支撑,自然能主导项目建设。而中小企业大多业务单一、覆盖范围窄,没有核心数据资源,资金和技术也有限,甚至缺乏必要的数据治理基础,根本不具备建设条件。

b432cc20dd8b95245537f656bc90dd94.png

难道只能看着大企业主导,除此之外毫无参与空间?

其实不然,结合市场实践,我们梳理了几条中小企业的可行路径,可供行业参考:

放弃“自建”,转而采购或被授权使用。高质量数据集基本以定制化为主两种,中小企业可根据自身业务需求,采购现成的数据集,成本远低于自建。比如一些做AI应用的中小企业,无需自建数据集,直接采购各大数据交易所、京东百度等大厂的数据集,就能满足模型训练需求。

国家也在鼓励大企业开放数据服务,大量的开源数据集,中小企业可主动对接,争取被授权使用相关数据集,降低用数成本。

承接分包业务。高质量数据集建设全流程中,数据标注、清洗等基础工作,大企业往往会外包出去。

中小企业可聚焦自身优势,承接这些基础环节,无需承担整体建设的成本和风险。比如一些有标注能力的中小企业,可对接京东、智元创新等企业,承接他们的标注业务,既能积累经验,也能获得收益,慢慢提升自身的数据处理能力。

参与开源数据集共建。现在很多企业和机构会推出开源数据集,比如智元创新的百万真机数据集,就上线了多个开源平台,吸引全球研究者参与共建。

中小企业可利用自身的细分场景优势,参与开源数据集的补充和完善,既能免费使用数据集,也能借助开源生态提升自身影响力,慢慢找到自己的定位。

直接使用基于高质量数据集衍生的产品。对很多中小企业来说,无需直接使用数据集,只要能用基于数据集开发的AI工具、模型等衍生产品,就能满足业务需求。比如一些做客户服务的中小企业,不用自建语音数据集,直接使用基于高质量语音数据集开发的智能客服系统,就能降低运营成本。

我们声明,并非否定中小企业的能力,也不认为高质量数据集建设只能由大企业主导。

它的建设初心,是支撑人工智能、具身智能等产业升级,最终需要全行业共同参与。但现阶段,中小企业确实不具备自建条件,盲目跟风只会浪费资金和精力。

从市场趋势来看,未来高质量数据集会朝着“小而精”的方向发展,行业垂直数据集的价值会远超通用数据集。

b95a7b4d3288dd4320c149fc3ac47a52.png

这其实给中小企业留下了机会。

中小企业可先做好数据应用的认知梳理,聚焦自身细分场景,积累相关的小范围数据,等有了足够的资金和技术积累,再考虑参与更深入的建设。

国家也在出台政策支持中小企业用数创新,多地发放数据券、算法券,降低中小企业治数用数成本,同步引导龙头企业带动上下游中小企业共享数据资源。

我们走访中发现,很多中小企业已经转变思路。

它们不再执着于自建数据集,而是通过采购、分包等方式,借力大企业的资源实现自身发展。当前市场格局下,与其硬撑着参与自己能力之外的建设,不如找对路径借势成长。

高质量数据集的建设热潮仍在持续,国企和大企业的优势短期内确实难以撼动。

中小企业无需焦虑,也不必盲目跟风,先做好自身核心业务,找到适合自己的参与路径稳步推进,或许就能在数据时代找到立足之地。

产业升级从来不是大企业的独角戏,我国中小企业占比90%以上,它们的参与才能让高质量数据集真正发挥最大价值,只是这个过程,需要时间和耐心。

评论 0