关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2025-10-13 12:00:02368人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

清华团队破解:大模型训练崩溃之谜

科技行者 浏览 313 11-09

成龙 李连杰 周星驰都老了,而他看起来却年轻了?

手工制作阿歼 浏览 469 09-01

具俊晔墓地陪伴大S,汪家自身难保?

趣文说娱 浏览 3550 07-31

《东极岛》演员演技评分,倪妮9.6分没干过第一,陈明昊评分意外

娱乐圈笔娱君 浏览 10202 08-14

"最牛柜姐"9年生养5娃收服C罗 已跻身福布斯富豪榜单

新民周刊 浏览 544 08-18

阿圭罗:亚马尔配得上巴萨10号,但拿他与梅西比较对他没好处

懂球帝 浏览 5236 07-25

立案!光环下的清越科技,藏着多少“秘密”?

财经下午茶 浏览 316 11-04

泰国新总理夫人火了:原为网红咖啡店老板 来自华裔家庭

红星新闻 浏览 541 09-08

媒体:内有数千民众抗议外有欧盟施压 泽连斯基低头了

环球网资讯 浏览 6924 07-27

以超600名前高官致信特朗普 呼吁其施压以总理停战

环球网资讯 浏览 8049 08-05

全场秒光!这部农村魔幻现实佳作魅力何来?

幕味儿 浏览 2864 07-25

"俄罗斯院士"33亿元投资闹剧 自称花了8年删网上资料

中国新闻周刊 浏览 630 08-18

冯德莱恩威胁不给稀土就不访华后 转身"跪"在美国面前

博览历史 浏览 1702 07-15

打破垄断,半导体独角兽,片仔癀的替身!

飞鲸投研 浏览 6086 07-28

男子买到全损特斯拉起诉卖家 法院:退还46万再赔138万

大风新闻 浏览 7625 08-11

孙红雷和妻子王骏迪逛街,比老婆矮显娇小

八怪娱 浏览 314 01-06

美媒评字母哥五大交易方案 联手文班?加盟湖人?

体坛周报 浏览 250 12-05

山东省联社展西亮受贿千万获刑13年,曾被指贪婪无度、退而不休

湘财Plus 浏览 2899 08-07

现场视频:一架客机在印度坠毁 冒出浓浓黑烟

CCTV国际时讯 浏览 5045 06-13

沃尔沃XC70:豪华超混第一车的“破局”之道

网易汽车 浏览 462 09-01

国亮新材IPO:行业产能过剩、竞争对手强大,未来发展出路在哪里

览富财经网 浏览 354 11-06
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11