关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2025-10-13 12:00:02365人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特朗普高喊和平,以色列悄悄磨刀:巴勒斯坦的血腥噩梦结束了?

宋鸿兵 浏览 358 10-17

博卡连续10场不胜追平队史最差纪录,其中两次由现主帅鲁索带队

直播吧 浏览 3991 07-24

或将于2027年发布 宝马iX3 M测试谍照曝光

车质网 浏览 251 10-24

小米智能门锁 4 Pro 双摄版发布,预售价 2464.15 元

IT之家 浏览 372 10-11

冲劲十足!13号秀奎因半场8中4砍全队最高11分外加5板 也有5失误

直播吧 浏览 1756 07-16

豪华同源“真国产卫士”,奇瑞风云X3L到底有多牛

车知事 浏览 573 08-23

Skip:NBA圣诞大战虽阵容强大 但也无法和三场NFL直播竞争

直播吧 浏览 4420 08-10

罗马诺:拜仁莱比锡想租恩昆库,切尔西告知要么永久转会否则免谈

直播吧 浏览 538 08-21

史上最贵法国门将!舍瓦利耶:加盟巴黎无比自豪,这对我意义非凡

直播吧 浏览 4562 08-10

特朗普宣布终止资助美国高铁:耗费数千亿美元无法交付

澎湃新闻 浏览 2075 07-17

猪肉消费大变革!爱尔兰猪肉抢占新赛道

餐饮老板内参 浏览 285 11-09

女子说"死了一晚上死了吗"男友跳车身亡 被判赔21万多

南方都市报 浏览 572 09-02

E句话| 王星与女友合体,复盘在缅甸遭遇?

仙女事件簿 浏览 183 12-29

一家4口爬山妻子坠亡 警方排除他杀可能:属于高空坠亡

极目新闻 浏览 263 03-03

外贸十强市大洗牌:深圳重回第一,东莞夺回第五

时代周报 浏览 3647 07-25

海豹08/海狮08及全新概念车 比亚迪海洋网车展阵容

网易汽车 浏览 146 04-22

记者:曼市双雄尚未和森林谈安德森,若欧联夺冠森林希望留人

懂球帝 浏览 169 04-10

还是别买了,这个超火的单品连郑秀晶钟小姐穿上也不种草

黎贝卡的异想世界 浏览 7312 07-31

美枪击嫌犯最新画面披露:跳楼、穿街、进林 然后消失

扬子晚报 浏览 404 09-13

单反绝唱:优雅技艺在职业网坛的黄昏

网球之家 浏览 328 11-09

上千万金饰被洪水冲走 店主:打捞队2天仅寻回70余克

极目新闻 浏览 8219 07-31
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11