关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2025-10-13 12:00:02294人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

波音787再出状况 日本全日空一客机着陆后“抛锚”

界面新闻 浏览 4806 06-17

皮尔斯:鲁尼不太适合当教练,做一名评论员会很不错

懂球帝 浏览 1072 07-17

新能源汽车的轮胎,为啥那么贵?

小李车评李建红 浏览 252 10-25

鲁媒:苏超决赛变成青训对决,别被所谓“草根”赛事蒙蔽双眼

懂球帝 浏览 267 10-21

000851,被重罚!9年财务造假近200亿元

第一财经资讯 浏览 5065 08-10

陈冲母女合体拍杂志被嘲,网友抗拒女儿出道

萌神木木 浏览 333 09-18

第二个赛季总有冠军入账,贝蒂斯调侃澳波:很高兴第一个赛季碰面

直播吧 浏览 355 09-10

《向往》收视回暖!黄磊动手做饭,明星干农活

萌神木木 浏览 202 10-26

今年冬天最美搭配:大衣+裙子,谁穿谁好看!

LinkFashion 浏览 186 01-12

财经调查丨“高端四件套”以次充好,电商虚标床上用品支数成公开秘密

央视财经 浏览 316 09-22

网红抓银环蛇被咬伤疑因"嫌注射血清贵不打" 好友发声

潇湘晨报 浏览 260 10-29

今年秋天一定要拥有的10件单品,时髦又高级!

LinkFashion 浏览 221 10-07

首席炒黄金期货大赚14亿?国海证券前固收首席靳毅辟谣称已报警

深蓝财经 浏览 272 10-29

知名网红奶茶门店天花板突然掉落 1名店员身亡

每日经济新闻 浏览 510 08-17

光伏“卖铲人”去年净利腰斩

网易财经 浏览 145 01-09

19岁女生在景区被男子捅伤致死 南昌警方:嫌犯被刑拘

央视新闻 浏览 7231 08-13

5年20款新50万辆野心:现代汽车在内卷中寻找"确定性"

网易汽车 浏览 13 04-29

中国裁判吹罚NBA夏联历史首人:孙健与杨瀚森同框交流 成当值裁判

醉卧浮生 浏览 6227 07-13

58岁徐帆与冯小刚离婚?徐帆回应了 其女儿发声

观察鉴娱 浏览 6858 08-03

武汉网警破获通过 “AI 换脸”非法侵入计算机信息系统案

IT之家 浏览 328 09-20

枪杀柯克凶手聊天记录公开 美国史上已有多名政客被杀

新民周刊 浏览 413 09-20
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11