关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2025-10-13 12:00:02367人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

起步即四驱 领克10 EM-P限时16.38万起

网易汽车 浏览 435 09-10

6岁女童被酒店水池排水管吸住 经历绝望14分钟后溺亡

中国新闻周刊 浏览 5384 08-10

成熟女性秋天衣服怎么穿?看看这些穿搭就有灵感,舒适又简约

静儿时尚达人 浏览 384 10-13

第13次阿辛决,温网今晚巅峰之夜!

网球之家 浏览 884 07-14

两度心脏骤停!苏州东吴官方:胡靖目前已恢复意识,生命体征平稳

直播吧 浏览 8140 08-11

特朗普将援乌"爱国者"反导系统 外界提出质疑

环球网资讯 浏览 3489 07-16

这些才是真正接地气的穿搭!裤子基础、外套保暖,简单又自然

静儿时尚达人 浏览 243 01-04

特朗普:即将公布各国关税信函 税率最高70%

浏览 1712 08-20

铁锤同意放行帕奎塔加盟弗拉门戈

体坛周报 浏览 282 01-29

特斯拉Model Y L突然上市!抢先到店体验:第三排体验太差了

电车通 浏览 476 08-20

过了九月,说不想穿薄风衣都是假的!

Yuki女人故事 浏览 364 09-10

极端寒潮冲击美国电力系统,芝加哥电价为何跌入负值?

国际金融报 浏览 274 01-28

蔚来新年换电站大扩张

大象新闻 浏览 304 01-06

杜淳带娃吃冰激凌,穿紫色长袜好抢镜,小蛋饺投喂爸爸幸福满溢

扒虾侃娱 浏览 289 01-18

杭州一商场开业不到1年人去楼空 商家被断水断电关门

每日经济新闻 浏览 629 08-22

牛弹琴:“可怜”的泽连斯基 又被特朗普“戏弄”了

上游新闻 浏览 375 10-18

泰柬两国在边境交火 关键时刻王毅在京会见东盟秘书长

新民晚报 浏览 8320 07-26

促成技术交易27项,“苏州模式”加速科技成果转移转化

现代快报 浏览 380 09-20

东契奇:我一直仰望詹姆斯 与他共事是一种荣幸

直播吧 浏览 6026 07-30

释永信和美女海量合影被扒 面对黑丝女主持"一脸正气"

古希腊掌管松饼的神 浏览 1868 07-29

SpaceX提示风险:太空AI技术未经验证,未必能商业化

财联社 浏览 158 04-22
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11