关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2025-10-13 12:00:02362人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特朗普宣布下月开征50%铜关税 美制造商忧成本飙升

浏览 6317 07-14

蒙特雷3-1逆转瓜达拉哈拉阿特拉斯

懂球帝 浏览 8033 07-27

NeurIPS 2025放榜:阿里Qwen门控注意力获最佳论文

量子位 浏览 293 11-27

俄白军队举行核演习 普京再提核“三位一体”

看看新闻Knews 浏览 64 05-23

视频:单日发射数百架 俄乌无人机互袭更趋激烈

环球网资讯 浏览 308 01-06

看AI变身游戏达人:莫斯科研究院开发超快视觉智能测试平台KAGE

科技行者 浏览 292 01-23

跨年档票房惨淡!5部新片全部倒挂,《寻秦记》情怀满满却难回本

萌神木木 浏览 314 01-02

亚马逊云科技在中国区域推出Amazon Graviton4实例

网易科技报道 浏览 441 09-11

看李兰迪和赵今麦,才知何谓灵气逼人

容景谈 浏览 2488 07-16

冯德莱恩登机离华前中欧发布联合声明 特朗普进退两难

掌青说历史 浏览 5277 07-26

女子昏厥男子跪地施救被质疑"袭胸" 急救专家发声

极目新闻 浏览 3425 07-15

002290,董事被采取强制措施!涉嫌违法发放贷款!

证券时报e公司 浏览 341 10-14

男子给18个月大婴儿灌酒致多处不适:我就是想逗逗孩子

潇湘晨报 浏览 6609 06-15

广厦GM:夺冠之后没有新的赞助商加入 可能和整个大环境有关系

直播吧 浏览 475 09-01

秦海璐直言不敢再和张嘉译合作,藏着什么真相

星创文化 浏览 360 10-13

华为鸿蒙第五界首车正式亮相

电动知家 浏览 2343 07-14

76人新赛季不败金身被破,全胜球队仅剩马刺、雷霆和公牛

懂球帝 浏览 326 11-01

记者:佛罗伦萨球员不满基恩500万高薪,后者态度也存在问题

懂球帝 浏览 304 12-11

移起向新 数智兴农 | 河南移动“5G+AI”战高温护秋粮

大象新闻 浏览 1484 07-28

被罗永浩点名赞扬 老乡鸡:我们仅有2道全预制菜

极目新闻 浏览 365 09-14

牙周科专家破解口臭3大谣言

网易健康 浏览 4343 03-21
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11