关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2025-10-13 12:00:02298人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

最好看的羽绒服,都满足这几点

Yuki女人故事 浏览 146 12-05

大S墓碑曝光!具俊晔用韩文署名刻字永远怀念,周边摆满照片和花

萌神木木 浏览 10288 07-29

明明年轻时很温柔,中年后却凶相毕露

负面黑洞 浏览 1844 07-15

一家三口在广西北海被海浪卷走:父亲遇难儿子还在ICU

红星新闻 浏览 1794 08-05

长期的“台积电第一大客户”,苹果如今也不得不“抢产能”了

华尔街见闻官方 浏览 213 01-16

鲍威尔回应遭刑事调查:都是借口 想逼美联储降息

红星新闻 浏览 214 01-13

医美公司突然闭店 资产上亿富婆老板疑被骗去泰国

极目新闻 浏览 328 09-21

波音787首起致命空难坠毁前燃油供应被切断,专家称或因芯片故障

IT之家 浏览 6810 07-14

这家券商拟出售6处房产,估值超2.6亿!

国际金融报 浏览 401 09-01

鱼死网破!赵露思直播“解约”

说历史的老牢 浏览 2049 08-05

台积电2纳米机密数据外泄 日企高层曾赴台"负荆请罪"

参考消息 浏览 9980 08-10

演员姜超:出道31年不温不火,相亲20次才遇对人,如今他过得怎样

小杨侃事 浏览 464 08-11

足球报:国安只是暂时度过危机,现在算计积分排名没有太多意义

直播吧 浏览 453 08-26

BLACKPINK的新歌,这么“癫”!

时尚COSMO 浏览 6738 07-14

美军一架“阿帕奇”直升机在韩国西南部预防性降落

环球网资讯 浏览 360 09-30

景德镇瑶里古镇收门票引发不满 村民纷纷指引游客逃票

极目新闻 浏览 7929 07-14

怀特:马祖拉训练中会罚赢的人跑圈 这叫做“赢了也不能松懈”

直播吧 浏览 325 09-26

光大银行修订公司章程,董事长党委书记分设略微“松口”

财经众议院 浏览 8433 07-12

官方:勇士正式签下塞斯-库里,后者将身披31号球衣

懂球帝 浏览 199 12-02

移起向新 数智兴农 | 河南移动“5G+AI”战高温护秋粮

大象新闻 浏览 1426 07-28

S妈深夜发文有偿征友,列出三点要求

老吴教育课堂 浏览 7981 07-12
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11