关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2025-10-13 12:00:02295人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美媒盘点入选最佳防阵次数最多的无DPOY球员:邓肯15次 科比12次

直播吧 浏览 333 09-11

4.6亿台北豪宅将遭法拍:汪小菲拒还房贷,具俊晔搬离,S妈催款无门

东方不败然多多 浏览 385 09-07

大学生在大名“变身主播”带货,为电商产业园代言

环球网资讯 浏览 7497 07-12

"四无公司"申领超100万生育保险:15名员工中13人生育

澎湃新闻 浏览 201 01-29

"巴铁"越打越猛阿富汗塔利班致电北京 中方斩钉截铁

健身狂人 浏览 150 03-17

联手梅西!阿根廷名记埃杜:德保罗将加盟迈阿密国际,签约4年

直播吧 浏览 4833 07-17

欧盟调整“禁燃”,堵死自己的路

汽车公社 浏览 186 12-18

苹果市值一夜大增万亿元

北京商报 浏览 2075 08-07

Manus爆火仨月远走他乡,AI Agent全球化困于合规与代码

第一财经资讯 浏览 2389 07-17

深耕专业 以赛促评 2025寰球汽车年度车测评收官

网易汽车 浏览 212 01-03

热身赛希腊76-74险胜意大利 字母哥缺席 字母哥兄弟发挥亮眼!

直播吧 浏览 461 08-23

俄美乌首次三方会谈触及实质议题 领土问题仍有分歧

上观新闻 浏览 179 01-26

“老头衫”爆火出圈!今年流行的老钱风、运动混搭风都离不开它

LinkFashion 浏览 371 09-03

图片报:塔踩到了斯塔尼希奇此前受伤的右脚,使其退出训练

懂球帝 浏览 155 02-04

巴黎外租小将犯严重超速驾驶罪,律师:当事人深表遗憾

懂球帝 浏览 40 04-22

丰田2700 万辆混合车减排相当于 900 万辆电动车

郑谊 浏览 507 06-23

宋宁峰抛弃的“糟糠妻” 成了王传君手中的宝!

林轻吟 浏览 9749 08-08

俄称已控制库皮扬斯克 正清缴乌军

每日经济新闻 浏览 161 12-28

歌曲播放量光速破亿,解读“网易云的梓渝现象”

江瀚视野 浏览 480 08-12

央行重磅发声!事关货币政策、汇率、贷款投向

网易财经 浏览 950 07-15

详解阅兵准备:坚持实战标准 利用北斗定位等辅助训练

红星新闻 浏览 10951 08-21
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11