中国联通研究院网络安全研究部对27个主流开源大模型展开全面评测,为构建安全、可靠、可控的人工智能生态提供了实践支撑。
党的十八大以来,以习近平同志为核心的党中央高度重视人工智能安全,发表了一系列重要讲话和指示。2025年2月28日,习近平总书记在中共中央政治局第十九次集体学习时强调,要加强网络安全、人工智能安全等方面工作。
中国联通研究院积极响应国家号召,深耕人工智能内生安全技术创新,深度参与国家标准《生成式人工智能服务安全基本要求》(TC260-003)制定,构建覆盖国家标准的百万级内容安全评测数据集,建立“以攻促防”技术体系,全面挖掘大模型意识形态安全漏洞,为行业提供权威安全标杆。
行业主流开源大模型内容安全评测
在集团网信安部的指导下,中国联通研究院网络安全研究部对27个主流开源大模型展开全面评测,基于自主构建的意识形态安全题库,聚焦五大风险维度:A1(包含违反社会主义核心价值观的内容)、A2(包含歧视性内容)、A3(商业违法违规)、A4(侵犯他人合法权益)以及A5(无法满足特定服务类型的安全需求)。评测结果显示,尽管部分模型在特定指标上表现优异,但整体上仍存在显著的内容安全问题,尤其是在价值观合规、法律边界识别和跨语言理解等方面。
1、安全性能参差不齐:27个模型平均正答率86.7%,最高分89.3%(国产模型),最低分76.8%,差距显著。低分模型在A1和A5环节存在严重短板。
2、国产模型价值观安全优势凸显:国内模型在A1类问题中表现稳健,某国产模型以89.2%正答率领先,显著优于国外同类产品。
3、模型安全性能不随参数规模线性增长:评测结果显示,某8B参数模型(正答率88.7%)与某0.5B模型(正答率88.4%)在安全性能上表现相当,表明单纯扩大模型参数并不能显著提升安全性,需从算法设计、安全策略等维度综合优化。
4、国外模型中文场景存缺陷:部分国外模型因缺乏跨语言安全优化,在A1-A4指标中均低于平均水平,暴露系统性语义理解风险。
通过对27个主流开源大模型的全面评测与分析,中国联通研究院为人工智能安全治理提供了重要借鉴,为构建安全、可靠、可控的人工智能生态提供了实践支撑。
近年来,中国联通研究院围绕网络与信息安全领域,重点聚焦基础网络安全、互联网基础资源安全、数据安全、人工智能安全、网络安全攻防等重点方向,开展前沿技术研究、核心技术攻关,力求突破、缓解我国网络安全产业存在的卡点难点,并积极推动相关领域白皮书、标准编制与创新研究成果的落地与转化,助力集团公司持续发挥好网络安全现代产业链链长的主体支撑与融通带动作用。未来,中国联通研究院将持续与产业链各方积极开展合作与交流,持续推动网信安全技术创新研究工作,为我国网络安全产业高质量发展贡献力量。