通信世界网消息(CWW)数据集质量是大模型性能提升的关键,目前国内大模型训练主要依赖国际开源数据集。由于数据开放共享不足、版权数据使用受限、数据集建设成本高且缺乏统一规范,中文数据集在规模、质量上仍有很大提升空间。为此,本文建议通过建立统一的数据共享平台、完善数据供给激励机制、制定数据全周期标准体系、优化“政产学研金服用”协同创新体系,加快高质量中文数据集建设进程,助力国内大模型高质量发展。
政策大力支持数据集建设
近年来,国家及地方密集出台相关政策,同时成立国家数据局,推进各地数据交易所建设,设立工业和信息化部人工智能标准化技术委员会等标准机构,持续赋能高质量数据集建设,推动数据资源的深度开发与高效利用。
国家层面相继出台《“数据要素×”三年行动计划(2024—2026年)》《关于加快公共数据资源开发利用的意见》《关于促进企业数据资源开发利用的意见》《国家数据基础设施建设指引》等政策措施,从数据战略规划、开放共享、开发利用到基础设施建设等,初步构建了较为完善的政策体系框架,不仅明确了建设高质量数据集的重要性,也为数据的采集、存储、流通和应用指引发展方向并提供制度支持。
在地方层面,从东部沿海的上海、浙江、广东,到中西部地区的贵州、四川等多个省市,纷纷将高质量数据集建设纳入地方数字经济发展规划,并写入《政府工作报告》,加快推动数据资源的整合与开发利用。例如,上海市提出建设“国际数据港”,推动跨境数据流动试点;浙江省通过建设“数据高铁”项目,实现政务数据的高效共享与应用;广东省通过建设粤港澳大湾区数据平台,促进区域数据资源共享与合作;贵州省依托大数据综合试验区,通过大数据交易平台,打造国家级数据资源集聚区,推动了数据要素的市场化配置。
总体而言,国家和地方层面政策组合日益完善,但高质量数据集建设尚未形成全国范围内的群体效应,仍需进一步加强顶层设计,明确职责分工,推动政策协同,形成全国“一盘棋”的发展格局,为国产大模型高质量发展提供坚实基础。
国内外大模型数据集发展现状
国内现状
我国数据资源丰富,在数据集建设方面具有一定优势。据IDC报告,2021—2026年我国数据规模将由18.51ZB增长至56.16ZB,年复合增长率达到24.9%,增速高于全球。国内大模型数据集以中文为主,互联网头部企业和科研机构积极推进数据集建设,在数据规模和多样性、行业语料库建设方面取得进展。例如,字节跳动的“豆包”大模型,训练数据主要来源于抖音、今日头条等产品上用户生成的内容;中国大模型语料数据联盟的“书生·万卷”多模态语料库,数据规模超2TB;科大讯飞的中文语音语料库,包含多种语言、方言和口音数据。不过,目前优质中文数据集仍较少,国内大模型训练主要依赖国际开源数据集。
国外现状
由于英文语料具有庞大的数据规模和丰富的来源渠道,目前国际主流大模型的训练数据集以英文为主,英文知识类数据规模是中文的6~8倍。这些数据来自自然语言处理、视觉、音频等多个领域。海外科研机构、企业和开源社区在数据集的发布和共享上较为开放,谷歌、微软等公司允许开发者通过应用程序接口访问其语料库,很多数据较易获取,例如Common Crawl,训练GPT-3的很多数据来源于此。Common Crawl是一个海量、非结构化、多语言的网页数据集,其数据规模达到PB级,包含原始网页数据、元数据和提取后的文本,文本覆盖40多种语言并涉及不同领域,且定期更新,允许任何人免费下载使用。
打造高质量中文数据集面临的问题
政务数据流通共享不足,价值挖掘不够
整合和利用公共数据可为构建高质量中文数据集提供充足语料。然而,当前公共领域的数据开放流通不足且价值挖掘不够,制约了高质量中文数据集的建设。
一是政务数据流通共享不足,数据资源难以有效整合利用。一方面是数据“孤岛”现象严重,缺乏统一平台整合,跨部门、跨地域数据标准不统一且互操作性差。据《2023年中国地方公共数据开放利用报告(省域)》披露,我国部分省市未上线统一的公共数据开放平台,未制定统一的公共数据开放标准,不同地区数据开放接口差异显著。另一方面是共享意愿低,由于担心数据安全、利益分配及潜在风险,部门之间数据共享意愿不足。
二是政务数据价值挖掘不够,数据资源难以有效转化为实际应用。主要表现在政务数据应用水平较低、深度不足且效果不佳。例如,数据应用场景单一,主要集中在政务服务领域;政务数据缺乏专业的数据分析人才和工具支撑,难以进行深度挖掘和分析;数据应用成果转化率低,未能充分转化为实际生产力和治理效能。
文献数据存在版权争议,导致使用受限
我国大模型训练和应用依赖海量中文高质量数据,期刊论文、图书、文学作品等作为高质量中文语料库的重要知识来源,在数据集建设中具有不可替代性。然而,文献数据领域的版权争议,以及大模型厂商与图书、文献出版商之间的合作机制尚不完善,制约了高质量数据集的建设,并对大模型的落地产生了不利影响。
一是版权争议限制了数据的获取和使用,导致数据集规模受限且质量难以提升。大模型的训练需要海量数据,但大量高价值的文献数据受版权保护,存在获取程序复杂等问题。即便获取了文献数据,版权限制仍使研究者无法充分开展数据挖掘与利用。例如,版权法通常限制数据的复制、传播和二次创作,这使得研究者难以对数据进行清洗、标注和整合,导致数据集质量下降,影响大模型的训练效果。
二是合作和利益分配机制不完善,阻碍了数据共享。当前,大模型厂商与出版商的合作多基于个案协商,缺乏统一的标准和规范,对于数据使用范围和权限也没有明确界定,导致合作效率低下,利益分配不透明,阻碍了高质量数据的共享与流通。
数据集开发利用成本高,企业难以负担
数据质量对大模型的训练结果至关重要,而获取高质量数据、开展数据处理等都需要大量投入,导致企业面临资金压力。一是购买高质量数据成本高昂。具有版权的数据属于高质量语料,需要付费购买,授权周期通常为1年,到期企业需停止使用并销毁数据,继续使用则需要再次购买。根据行业经验,语料数据成本占训练总成本的10%~30%。二是数据开发成本高。数据收集、清洗、标注、存储等环节不仅成本高昂,而且耗时耗力,尤其在医疗、法律等对数据精度需求高的领域,以及复杂的工业场景中,数据采集成本会更高,这对企业的资金实力形成严峻挑战。数据集规模越大,复杂程度越高,成本增长的速度就越快。以数据存储为例,随着数据量的持续攀升,构建大规模语料库需要配备大量分布式存储系统、图形处理单元和云计算平台等技术设备,而中小企业和研究机构往往难以承担设备的采购和维护成本。
数据集建设规范性不足,难以转换复用
中文数据集短缺的重要原因之一是其建设缺乏规范性,这限制了数据的重复利用。一是数据质量良莠不齐。大模型的训练数据通常来源于各类网页、社交媒体、开放语料库等公开渠道。而当前我国公共数据与行业数据开放范围不统一,格式各异,原始数据可能存在缺失值、错别字、语法错误及价值偏差等问题,直接影响模型效果。二是数据处理标准不统一。数据采集、清洗、标注等环节缺乏统一标准,如复杂数据需要人工标注时易受主观因素干扰,导致标注结果不一致,造成数据集之间结构差异显著,难以相互转换,导致重复建设现象频发。以数据采集为例,数据分散于不同行业领域,数据类型丰富多样,因此亟须建立统一的协议与标准,用以支撑数据在不同系统与平台间的流通与交易,从而保障数据安全,推动数据价值释放。
启示与建议
建立统一数据共享平台,降低使用门槛
建议加快建立全国性的数据开放平台、统一数据开放标准、提供更多API,进一步降低数据使用门槛,让公共数据“供得出、流得动、用得好”。当前,欧美国家大多设有国家级的政府数据开放网站,这些网站覆盖医疗健康、能源、气候、教育、财政、公共安全等领域,并提供API,帮助第三方应用调用开放数据集。
以美国“国家人工智能研究资源”(NAIRR)试点为例,该平台由美国政府主导,美国国家科学基金会(NSF)牵头,联合10个联邦机构和25个非政府合作伙伴,采用公私合作、开放访问的平台运作模式,为研究人员、学术界和产业界提供广泛的计算资源、数据集、工具以及支撑服务。我国可以借鉴相关经验,开发由政府主导、多方合作的国家级AI训练数据开放平台。在政策层面明确平台建设的目标、路径与支持措施,打造开放、共享的AI研究资源生态系统,降低AI数据资源使用门槛。同时,政府要承担起质量维护和运营管理的责任,持续优化平台功能与服务,保障平台运转有序,促进创新与协作。
完善数据供给激励机制,提高开放积极性
建议细化并完善数据供给的激励措施,明确授权协议,建立统一的收费规范,有效推动数据资源供需双方开展合作,实现数据资源的开放共享、利益共赢。可以由政府、行业协会等牵头,制定大模型厂商与出版商的合作规范,明确数据授权范围、使用方式、期限、费用等关键条款,降低供需双方的谈判成本,提高合作效率。在费用方面,采取差异化收费策略和政府补偿机制。例如,基于非营利性成本补偿原则,对用于学术研究的数据,给予优惠价格;对具有重要社会价值但商业价值较低的数据,如历史典籍、科研论文等,政府可给予数据提供方一定的补贴,鼓励其开放数据资源;对用于商业用途的数据,则按照市场价值收费。
引导多元化主体共建,助力企业用“数”治“数”
建议相关政府部门鼓励龙头企业、科研机构与大模型企业展开合作。例如,鼓励大型互联网平台企业充分发挥自身在算力、资金、数据等方面的优势,向中小企业开放数据以及相关产品和技术能力,带动产业链上下游企业基于生产经营场景打造可信数据空间;引导企业、行业组织、高校、科研院所等形成多元主体,协同推进关键技术研发、跨领域数据资源共享,提高数据清洗、标注等工作的质量,建设一批具有行业特色的高质量数据集。同时,加强产业公共服务体系建设,强化普惠性开发工具、数据资源、算力调度等方面的供给。探索向企业精准发放数据券、算法券、算力券,鼓励有条件的地方政府统筹财政资金、设立数据产业投资引导基金,引导社会资本有序投向数据产业。鼓励金融机构创新产品和服务,加大对数据相关企业的融资支持力度,降低企业用“数”成本。
围绕数据全生命周期,建立数据标准体系
建议尽快出台针对大模型高质量中文数据集的专项规划与支持政策,进一步细化数据集建设、使用等方面的举措,制定覆盖数据全生命周期的标准规范,明确合规要求,强化安全与隐私保护。例如,制定数据预处理环节关于数据清理、去重、格式化等方面的标准,明确语料库编码规范。建议相关政府部门统筹协调行业协会、龙头企业、科研机构等,共同完善公共和行业数据标准体系,充分考虑国内不同标准、国内外标准之间的衔接,并适时修订更新。结合我国发展情况,可率先推动医疗、教育、金融、能源、交通等重点领域的数据标准制定。针对不同应用场景,细化数据标注规范,为其他行业数据标准的制定提供参考,推动数据集质量提升与流通交易。
*本篇刊载于《通信世界》2025年3月25日*
第6期 总964期