关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2025-10-13 12:00:02129人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

24岁王源的身份焦虑:撕不掉的TFBOYS标签,走不出的偶像困局

Yuki女人故事 浏览 193 09-09

又一个汽车新品牌要来了,背靠五菱,首款车型微型车

汽车公告板 浏览 179 09-18

枪手最佳转会窗?贝尔塔上任首个夏窗,阿森纳3亿签7人+续约3将

直播吧 浏览 263 08-24

普京:“海燕”核动力巡航导弹完成“决定性试验”

极目新闻 浏览 85 10-27

华为的算力突围 :一手大国重器、一手化繁为简

华商韬略 浏览 184 09-21

红旗首款越野车征名送车

大象新闻 浏览 132 10-13

美首批新关税名单没有台湾地区 台网友喊话"硬起来吧"

环球时报新闻 浏览 4394 07-10

美推进“金穹”系统的天基拦截器研制 但钱和技术都存在问题

澎湃新闻 浏览 92 10-12

美总统要"派兵"到芝加哥维持治安 当地市长:深感忧虑

红星新闻 浏览 309 08-25

不设上限/不限首任车主/终身享有 比亚迪回应智能泊车兜底权益

网易汽车 浏览 9020 07-11

东体:蓝血人变身白衣天使,医生帮病人恢复心跳后受邀观申花训练

直播吧 浏览 6190 07-28

牛市盛宴,光伏如何分一杯羹?

赶碳号 浏览 174 09-10

vivo、OPPO“大炮对轰”:手机为何卷成相机?

北京商报 浏览 118 10-15

一天4瓜!个个离谱

阿纂看事 浏览 89 10-25

斯基拉:拜仁与切尔西就韦加展开谈判,球员愿意加盟拜仁

懂球帝 浏览 4883 07-16

四川35年老建行被通报违规经商、违背公德,曾任凉山分行副行长

湘财Plus 浏览 4161 07-17

高超声速反舰导弹亮相:射程远、速度快、毁伤强

环球时报 浏览 177 09-04

多家快递拒收充电宝退货件,网友:为啥商家能寄来?

大象新闻 浏览 9776 08-06

用友BIP 5发布 王文京:让AI在企业落地

网易科技报道 浏览 255 08-19

【英超】曼联客战农场主,库尼亚突前,舍什科待命

体坛周报 浏览 226 08-25

美银:史上最强抛售信号已经出现!

边际财经实验室 浏览 2855 07-16
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11