“现在没有一个人工智能系统是绝对安全的。”6月5日上午,北京前瞻人工智能安全与治理研究院院长、联合国人工智能高层顾问机构专家曾毅在2025全球数字经济大会数字安全主论坛暨北京网络安全大会开幕峰会上发表主旨演讲时指出,诸如隐私侵犯、虚假信息等关键性、基础性人工智能安全风险依然存在。
在曾毅看来,这主要是因为伴随人工智能技术的发展,大模型安全攻击方法的持续进化,人工智能安全趋势也随之复杂化。他以2020年至2025年的大模型安全攻击方法举例,2020年仅是简单提示注入等简单威胁,2023年已经出现多模态攻击,2024年出现智能对抗攻击,今年则出现了组合复杂攻击。
“人工智能大模型能力的提升,其安全性并没有变得更高。”曾毅认为,基于灵御人工智能安全攻防平台对49种主流大模型的测试佐证了自己的观点。
从对主流大模型的测试结果来看,有两个非常突出的现象。
一是最新的大模型也没有带来更强大的安全防护能力。例如,今年春节后国内外发布的几个典型大模型,模型能力实现了跃迁,但安全风险防范并没有做得更好。
二是国产人工智能大模型的安全性相对较好,但并非世界领先。接受测试的大模型的攻击成功率在0.7%-30%左右,其中国产大模型的攻击成功率相对偏低,表明安全性相对较好,但表现最好的模型(攻击成功率在5%左右)也没有做到全球领先。
“但是人工智能可以兼得高水平的能力与安全,也就是鱼和熊掌是可以兼得的。”曾毅在演讲中对人工智能安全持相对乐观的看法,并不认为人工智能的安全与性能是相互掣肘的关系,现有的主流大模型的表现并不代表提升人工智能安全性是一道无解题。
曾毅的乐观同样基于最新的研究测试结果。他向与会者透露,基于人工智能模型安全越狱解毒剂计算原理,通过引入越狱解读机的机制到不同的人工智能大模型中,对人工智能模型的能力在没有负面影响的情况下,模型安全性可以提升20%-40%,而且需要付出的计算能耗非常有限。
“安全与治理是人工智能的核心能力,将加速人工智能稳健发展与应用。”在演讲最后,曾毅再次呼吁要重视人工智能的安全性,加强人工智能安全治理。
2025-06-11
2025-06-11
2025-06-10
天
倒计时
2024.06.05-06.06
北京·国家会议中心