文 | 中国信息通信研究院副院长 魏亮
习近平总书记指出,数据是数字经济时代的基础性资源、重要生产力和关键生产要素。近年来大模型技术不断取得突破,其中大规模高质量训练数据的投入,起到了关键作用,也进一步将“以数据为中心的人工智能”推向一个新阶段。近期发布的 Deep Seek 系列模型训练中大量高质量推理数据集的使用更加凸显了高质量数据的重要性,而大模型要与垂直领域深度融合同样需要高质量数据集的支撑。国家数据局围绕高质量数据集建设相关工作开展了一系列工作部署。2025年2月19日,高质量数据集建设工作启动会在北京组织召开,国家发展改革委、教育部、科技部、工业和信息化部等27个部门参会。下一步,高质量数据集建设工作将积极推进落实“人工智能+”行动,加快推动形成一批标志性成果,赋能行业高质量发展。
01
准确认识高质量数据集建设取得的进展和面临的挑战
高质量数据集构建是一项复杂而关键的任务,需要了解模型应用场景和需求,进而开发、构建和维护数据资源,提供持续有效的高质量数据集。当前,在顶层设计层面,国家数据局等17部门联合印发《“数据要素×”三年行动计划(2024—2026年)》,强化场景需求牵引,带动数据要素高质量供给、合规高效流通,高质量数据集建设取得积极进展。在地方层面,湖北、江苏、浙江等多省市明确了建设高质量数据集的数量、时间及激励机制;湖北省数据局发布首批10个高质量数据集,推动构建高质量“数据集市”;苏州市发布首批30个工业制造、交通运输、金融服务等高质量数据集。在行业层面,智源研究院发布全球最大的多行业中英双语数据集IndustryCorpus 1.0,包含3.4TB开源行业预训练数据,覆盖18类行业;中国信通院推出我国首个面向行业的人工智能数据集质量评估体系,为数据质量提供客观、公立的评价能力和方法体系;北京国际大数据交易所累计发布约300个高质量数据集,形成10余个应用领域数据资源地图。与此同时,还应看到目前高质量数据集建设还存在不少挑战。
一是政府和业界不清楚行业高质量发展需要什么样的数据。一方面,行业大模型数据具有需求多样性的特点。不同行业部门对模型场景数据的需求各不相同,涉及分析、决策和生成不同的任务需求,这种多样性要求在人工智能高质量数据集建设中,必须深刻理解业务场景。另一方面,行业大模型数据具有需求复杂性的特点。大模型涉及预训练、微调、反馈强化学习等不同阶段,不同阶段都涉及到数据训练构建和优化策略,需要多个数据源、多种数据类型融合对齐,这增加了数据处理和管理的复杂度。
二是行业企业不知道高质量数据集如何构建。构建大模型数据集主要包含数据采集、数据清洗、数据标注、质量评估等核心环节。各环节需要根据大模型数据集具有的规模大、多样性足、行业垂直属性强等特点进行针对性的技术研发和适配。但是,行业企业对于数据的理解程度不同,面向大模型的数据治理方法和经验不足,传统的数据处理工具和技术无法满足大模型需求,需要引入先进的数据处理技术和工具提高数据处理效率和准确性。
三是业界不了解行业数据集质量如何评价。不同行业、不同数据源的数据完整性和准确性可能参差不齐,严重影响大模型的训练效果和预测准确性,造成训练资源浪费。此外,训练数据获取往往需要耗费大量时间和经济成本,包括数据收集、清洗、标注等环节。在行业大模型的实际建设中,对于构建和采买的数据没有统一的衡量标准,造成无法有效获取高质量数据集资源。
02
分类推动高质量数据集供给体系建设
数据之于大模型就像石油之于汽车,汽车无法直接使用原油,原油只有经过一系列复杂的过程炼化成汽油后,才能给汽车使用。同样,海量原始数据需要经过“炼化”形成高质量数据集,才能真正有效地用于大模型训练。行业大模型训练所需数据集,既要覆盖行业通识,也要蕴含专门知识。其中,通识数据是通用大模型能力提升的基础,行业通识数据是行业大模型训练的基底,行业专业数据是企业推动行业大模型的应用、部署私域模型能力的底座。为此要根据急用先行、分类推进、合理使用的原则,推进高质量数据集建设。
一是加快通识类高质量数据集建设。通识类高质量数据集是指由政府机构、科研机构、开源社区或大型互联网企业等公开数据构建的数据集,具有广泛性和通用性,覆盖多个领域,如自然语言处理、计算机视觉、语音识别等,能够为企业提供丰富的训练资源和基准测试环境,有助于行业大模型快速验证算法、提升模型的基础能力。此外,公共数据集还有助于促进跨行业、跨领域的数据共享和知识融合,推动行业大模型的持续进步和快速发展。
二是加快行业通用类高质量数据集建设。行业通用类高质数据集,是指针对某一特定行业或领域知识的具有事实性数据集,具有高度的专业性和针对性。这类数据集通常包含某一特定行业特有的知识、术语、场景和业务流程等信息,对于训练出适用于行业应用的大模型至关重要,能够覆盖行业领域专业知识,提高模型在行业通识领域的泛化能力。
三是加快行业专用类高质量数据集建设。行业专用数据集,是指根据行业企业自身业务场景和需求收集的数据集。这类数据集通常包含行业企业内部业务流程、用户行为、产品信息等关键信息,具有针对性和定制化的特点,能够为行业企业提供高度个性化的训练数据资源,构建专属大模型。通过行业企业场景化数据集的训练,可以定制化地优化大模型算法和参数设置,深度挖掘内部数据价值,实现模型的定制化优化与业务高度适配,使其更好地服务于业务需求和发展战略,带来更加精准和有效的业务洞察和决策支持。
03
加快提升高质量数据集构建能力
推动高质量数据建设,是一项系统工程,核心是提升行业数据集管理与运营效率、提升数据集质量和数量、充分挖掘数据资源价值、保障模型数据安全可信,需要系统性地加强能力建设。
一是完善行业数据集管理体系。编制行业数据资源目录,细化数据集的分类与分级,明确结构化、半结构化及非结构化等多种数据类型,按照数据清洗处理程度(手动、半自动至全自动),开展数据集资源管理。构建高效协同的组织架构,确保从数据采集到模型应用的每一步都能够得到有效管理和支持,建立数据治理与模型开发的协同架构。围绕数据技术、平台、应用及安全,制定详尽标准,涵盖数据生产、服务、质量评估及数据集管理。培养跨学科、跨专业的数据工程团队,强化数据科学与模型训练能力,为大模型的成功部署与持续优化奠定坚实基础。
二是提升行业数据集开发维护能力。着力提升数据采集汇聚、数据预处理、数据标注等关键环节,以及指令微调、反馈对齐关键阶段的技术工具能力。数据采集汇聚需具备高效的数据抓取、清洗与整合能力,确保数据的全面性和多样性;数据预处理阶段涵盖数据清洗、去噪、归一化等技术,以提升数据质量;数据标注环节要求深入理解数据特性,掌握高效的自动化和智能化标注技术。行业大模型数据集主要应用于指令微调阶段和反馈对齐阶段,通过有标注的指令数据对模型进行精细化调整,增强其任务执行能力,利用用户反馈优化模型提升实际应用效果。此外,还需要制定详细的数据技术处理要求和方案,以保证不同阶段的数据分布一致性。
三是增强行业数据集质量控制。在质量管理方面,从流程管理、质量评估和组织规范三方面对大模型数据集生产到管理的各环节进行能力规范和等级评定,从源头上确保数据集高质量生产和管理。在质量评估方面,针对行业大模型对数据质量进行更多维度的要求,提升数据集在模型应用上的实用效果。设计具体规则和方法,采用自动化标注和人工抽样的方式对数据集自身质量进行前置检测,采用模型验证和消融实验的方式对数据集在大模型的应用效果进行后置检测,通过模型效果反馈进行数据集质量优化。
做实、做深、做细高质量数据集建设工作,就要深入贯彻落实党中央、国务院决策部署,做好系统谋划、加强统筹协调、做好部门协调。此次高质量数据集建设工作启动会,为推动相关工作发出了动员令、吹响了集结号。相信通过国家数据局协同行业主管部门的政策牵引和政、产、学、研、用多方协同,我国高质量数据集建设步伐将越来越快,也必将为人工智能赋能实体经济注入强劲动力。
来源:国家数据局
上一篇: 人民日报5800字署名文章谈人工智能
下一篇: 一文搞懂企业数字化转型
违法和不良信息举报投诉电话:0377-62377728 举报邮箱:fbypt@ex12580.com