参考指南

JADES 由德国亥姆霍兹信息安全中心（CISPA)，富莱睿（Flexera）和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下，老师会如何批改考试中的开放题：如果考生只在开头写「答：」，但是后面却没有给出答案，当然不能得分；反之，如果他开头说「我不会」，却在后面写出了正确答案，那就该得分。另一方面，还有的答案看似组织良好、道理高深，却句句不在点上，那么依然只能低分；只有当回答准确且全面地涵盖了解决问题的关键要点时，其得分才较高。老师给分的依据，在于答案的实际内容和关键点，而不在于答案的开头、词藻或者形式。

可惜，目前 LLM 越狱攻击（Jailbreak）的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标，要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象，无法覆盖得分的要点，导致评估容易出现偏差，很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题，来自CI

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

痛经？不孕不...

背靠腾讯、跟...

日方：山东舰...

沪指创近十年...

博格丹：约基...

出了事算谁的...

英国皇家空军战机将在波兰上空执行防空任务

被批贪婪无度、大搞权色交易官方通报许雷案最新进展

遇见上合共享津彩｜上合峰会新闻中心的奇妙时刻

特朗普高喊和平，以色列悄悄磨刀：巴勒斯坦的血腥噩梦结束了？

博卡连续10场不胜追平队史最差纪录，其中两次由现主帅鲁索带队

或将于2027年发布宝马iX3 M测试谍照曝光

小米智能门锁 4 Pro 双摄版发布，预售价 2464.15 元

冲劲十足！13号秀奎因半场8中4砍全队最高11分外加5板也有5失误

豪华同源“真国产卫士”，奇瑞风云X3L到底有多牛

Skip：NBA圣诞大战虽阵容强大但也无法和三场NFL直播竞争

罗马诺：拜仁莱比锡想租恩昆库，切尔西告知要么永久转会否则免谈

史上最贵法国门将！舍瓦利耶：加盟巴黎无比自豪，这对我意义非凡

特朗普宣布终止资助美国高铁:耗费数千亿美元无法交付

猪肉消费大变革！爱尔兰猪肉抢占新赛道

女子说＂死了一晚上死了吗＂男友跳车身亡被判赔21万多

E句话| 王星与女友合体，复盘在缅甸遭遇？

一家4口爬山妻子坠亡警方排除他杀可能:属于高空坠亡

外贸十强市大洗牌：深圳重回第一，东莞夺回第五

海豹08/海狮08及全新概念车比亚迪海洋网车展阵容

记者：曼市双雄尚未和森林谈安德森，若欧联夺冠森林希望留人

还是别买了，这个超火的单品连郑秀晶钟小姐穿上也不种草

美枪击嫌犯最新画面披露：跳楼、穿街、进林然后消失

单反绝唱：优雅技艺在职业网坛的黄昏

上千万金饰被洪水冲走店主：打捞队2天仅寻回70余克