关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2025-10-13 12:00:02128人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

AI文艺复兴:一场由大脚怪引发的内容革命

钛媒体APP 浏览 5274 07-13

嫁给汪涵17年,细扒杨乐乐心酸现状,她的选择真的对吗?

不八卦会死星人 浏览 93 10-16

朵朵和小酒窝合体出道,才明白她下了一盘大棋

观察鉴娱 浏览 159 09-29

堪称“平民保时捷”!11月13日预售,续航1500km

隔壁说车老王 浏览 50 11-08

媒体:怒批欧洲软弱 结果特朗普自己成"吐槽大会"主角

新京报评论 浏览 19 12-12

39%关税逼急了,瑞士总统“不请自来”紧急飞美国,专家建议"送块金表"

华尔街见闻官方 浏览 8590 08-06

影石创始人谈「杀入无人机市场」:存在市场增量空间、尊重大疆但将与之竞争;李想:第一眼看到i8我都觉得丑;索尼起诉腾讯新游「抄袭」

雷峰网 浏览 2004 07-30

武汉:无人机未经实名登记实施飞行最高罚款2万元

金台资讯 浏览 7273 05-28

京东:15万京东外卖全职骑手,五险一金和员工福利已经用上

大象新闻 浏览 208 08-19

普京:某国准备进行核试验

北京日报 浏览 106 10-04

39集《沉默的荣耀》大结局前瞻,5人再无反转,黎晴成唯一变数

娱乐圈笔娱君 浏览 103 10-15

未来的轮胎,是汽车重要的数据入口?

盖世汽车 浏览 152 09-25

重现风采 全新雷克萨斯ES旅行版假想图曝光

车质网 浏览 1891 07-15

OpenAI更新ChatGPT使用政策,禁止提供专业医疗、法律和财务建议

IT之家 浏览 60 11-03

英国宣称准备好"为台湾战斗" 专家:虚张声势

环球网资讯 浏览 3300 07-29

李幼斌:戏里妆容重,戏外白一点,儿子38岁不婚

乡野小珥 浏览 9620 08-03

或命名为瑞虎3L 奇瑞瑞虎T13T谍照曝光

车质网 浏览 16 12-04

美军多海域再现“航母真空”

环球网资讯 浏览 35 11-14

80后资本大佬朱江掌舵后,帝欧家居要“挪”4.77亿募投资金救急,已连续三年亏损

时代周报 浏览 5599 07-25

远藤航:以利物浦球员身份重返日本,是我梦想成真的时刻

懂球帝 浏览 5702 07-31

最高相差上千元!中转机票的羊毛能“薅”吗?

中新经纬 浏览 137 10-02
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11