【高端访谈 | 王锋】高质量数据集:人工智能时代的核心底座

在人工智能技术飞速发展的当下,高质量数据集已成为推动AI模型精进与创新的核心底座。中国质量认证中心区块链与数据服务部部长、江苏省数字经济学会专家会员王锋,围绕高质量数据集的定义、评价体系、企业建设路径、技术赋能及行业人才培养等核心问题展开深度解读,为行业发展提供了专业指引。
高质量数据集是特指为人工智能服务的一类数据产品,经采集、加工后可直接用于 AI 模型开发训练,能有效提升模型性能,兼具鲜活度、真实性、大样本等特性,需满足技术可行、实用便捷、质量保障三级递进要求。与之相关,数据经规模化积累成为数据资源,产品化后形成数据产品,而满足合法拥有、货币计量、能带来经济利益三要素的数据资源,则成为数据资产。根据应用场景与知识内容,高质量数据集又可分为通识、行业通识、行业专识三类,分别适配不同的模型训练与应用需求。

在高质量数据集的评价实践与体系构建上,中国质量认证中心早已布局,2022年便颁发国内首张数据产品质量评价证书,目前已发布四批人工智能高质量数据集评价证书,通过率约30%,覆盖地质、安全、政务等多个领域,数族科技的企业经营指标特性数据集便是典型代表,其双数据模态、大样本量与高知识密度的特征,通过了多维度全流程评估。在此基础上,团队研发的“CQC-6D模型”成为核心评价体系,从数据说明、模态、质量、应用、服务、管理六个维度,实现对数据集内生质量、模型赋能效果及质量一致性的全方位管控。当前行业评价仍面临多模态数据评估、行业标准缺失、模型动态验证基础薄弱等挑战,不过全国数标委已启动相关标准制定工作,49项标准及26项技术文件的推进,将逐步破解行业难题。
对于普通企业而言,构建高质量数据集体系需按需推进。无高需求企业可先完成数据资源目录梳理、分类分级等基础工作,并结合相关规定推进数据资源入表;而有智能化转型需求的企业,需遵循明确数据需求、做好数据规划、优化数据采集、开展预处理、规范数据标注、完成模型验证与评价的六步路径,依托科学方法提升数据集建设质量。

区块链、隐私计算等新兴技术,正为高质量数据集建设注入新动能,二者作为数据基础设施建设的核心技术,结合可信数据空间的建设,能有效提升数据流通效率。相关团队已发布可信质量数据空间白皮书,提出质量数据服务网络架构,借助技术实现质量认证数据 “可用不可见、可用不出域、可控可计量”,打造新型质量基础设施,进一步提升高质量数据集评价的有效性。
针对即将踏入数据领域的青年,王锋也给出了发展建议:要持续跟踪区块链、隐私计算等技术前沿,密切关注数据要素相关政策动态;扎根产业实践,推动数据产业化与产业数据化,深刻理解产业场景让数据要素发挥实际价值;紧跟“人工智能+” 趋势,聚焦高质量数据集建设这一AI发展关键;同时积极拓展行业人脉,打造协同发展的生态圈,在产业协同中实现个人与行业的共同发展。
作为人工智能发展的关键底座,高质量数据集的建设与发展,正在政策引导、技术赋能、产业实践的多方协同中稳步推进,未来也将持续为人工智能产业的高质量发展筑牢根基。



















评论 0