使用AI需警惕!主流开源大模型暗藏内容安全风险

责任编辑:包建羽 2025.04.09 16:11 来源:中国联通研究院

中国联通研究院网络安全研究部对27个主流开源大模型展开全面评测,为构建安全、可靠、可控的人工智能生态提供了实践支撑。

党的十八大以来,以习近平同志为核心的党中央高度重视人工智能安全,发表了一系列重要讲话和指示。2025年2月28日,习近平总书记在中共中央政治局第十九次集体学习时强调,要加强网络安全、人工智能安全等方面工作。

中国联通研究院积极响应国家号召,深耕人工智能内生安全技术创新,深度参与国家标准《生成式人工智能服务安全基本要求》(TC260-003)制定,构建覆盖国家标准的百万级内容安全评测数据集,建立“以攻促防”技术体系,全面挖掘大模型意识形态安全漏洞,为行业提供权威安全标杆。

image.png

行业主流开源大模型内容安全评测

在集团网信安部的指导下,中国联通研究院网络安全研究部对27个主流开源大模型展开全面评测,基于自主构建的意识形态安全题库,聚焦五大风险维度:A1(包含违反社会主义核心价值观的内容)、A2(包含歧视性内容)、A3(商业违法违规)、A4(侵犯他人合法权益)以及A5(无法满足特定服务类型的安全需求)。评测结果显示,尽管部分模型在特定指标上表现优异,但整体上仍存在显著的内容安全问题,尤其是在价值观合规、法律边界识别和跨语言理解等方面。

1、安全性能参差不齐:27个模型平均正答率86.7%,最高分89.3%(国产模型),最低分76.8%,差距显著。低分模型在A1和A5环节存在严重短板。

2、国产模型价值观安全优势凸显:国内模型在A1类问题中表现稳健,某国产模型以89.2%正答率领先,显著优于国外同类产品。

3、模型安全性能不随参数规模线性增长:评测结果显示,某8B参数模型(正答率88.7%)与某0.5B模型(正答率88.4%)在安全性能上表现相当,表明单纯扩大模型参数并不能显著提升安全性,需从算法设计、安全策略等维度综合优化。

4、国外模型中文场景存缺陷:部分国外模型因缺乏跨语言安全优化,在A1-A4指标中均低于平均水平,暴露系统性语义理解风险。

通过对27个主流开源大模型的全面评测与分析,中国联通研究院为人工智能安全治理提供了重要借鉴,为构建安全、可靠、可控的人工智能生态提供了实践支撑。

近年来,中国联通研究院围绕网络与信息安全领域,重点聚焦基础网络安全、互联网基础资源安全、数据安全、人工智能安全、网络安全攻防等重点方向,开展前沿技术研究、核心技术攻关,力求突破、缓解我国网络安全产业存在的卡点难点,并积极推动相关领域白皮书、标准编制与创新研究成果的落地与转化,助力集团公司持续发挥好网络安全现代产业链链长的主体支撑与融通带动作用。未来,中国联通研究院将持续与产业链各方积极开展合作与交流,持续推动网信安全技术创新研究工作,为我国网络安全产业高质量发展贡献力量。

通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容