关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2025-10-13 12:00:02296人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

完成阿森纳一线队首秀,15岁小将道曼:很自豪,这才刚刚开始

懂球帝 浏览 8957 07-26

日本人口连续16年减少,暗藏哪些新变化?东京都为何成人口增长“独苗”?

第一财经资讯 浏览 4315 08-11

夏日户外装备如何选?九张图为您支招

人民网 浏览 3994 08-05

健康开学季 6招帮孩子预防呼吸道传染病

人民网 浏览 1396 09-13

成本仅5000万,票房破15亿?逆袭《南京》夺冠,这才是年度黑马

靠谱电影君 浏览 443 08-11

牛弹琴:美国人大吃一惊 特朗普牵涉到了战争罪行

现代快报 浏览 260 12-02

田栩宁事件影响恶劣!受害者丢工作,湖南台被牵连,网友要求封杀

萌神木木 浏览 7483 07-10

裁掉曾凡博后首战!小波特34+10篮网惜败猛龙 巴恩斯31+6+4

醉卧浮生 浏览 296 10-18

美联储褐皮书:经济活动略有增加 较此前改善

华尔街见闻官方 浏览 1868 07-17

“九天”通用基础大模型3.0发布

观察者网 浏览 7231 07-29

乒坛最新世界排名:孙颖莎领跑女单,王楚钦逐渐逼近林诗栋

乒谈 浏览 2064 08-12

回顾沃尔奇葩受伤:在家中滑倒导致左脚跟腱断裂 因此缺阵12个月

直播吧 浏览 376 08-20

理想汽车启动门店合伙人计划:曝一线门店将参与分红

汽车服务世界 浏览 127 03-02

记者:一旦确定无法签下伊萨克,利物浦将迅速推进埃基蒂克的转会

直播吧 浏览 2579 07-17

朱孝天再发文,大S花钱大手大脚,暴露马筱梅地位

青梅侃史啊 浏览 7881 07-20

WAIC重磅发布!智能教育大模型、好案例、新教材都来了

上观新闻 浏览 946 07-27

张艺兴跑外卖给聋人粉丝送演唱会门票,引质疑?

动物奇奇怪怪 浏览 2394 07-30

陈宇浩:我们一直踢自己的攻势足球,过早丢分和红牌是转折

懂球帝 浏览 728 08-10

苏契奇:希望在国米拿冠军;魔笛和B罗都是我的偶像

懂球帝 浏览 366 09-11

票房从57.7亿跌到1.28亿,我感慨:这块金字招牌算是砸了

靠谱电影君 浏览 205 11-25

菲最高法院:暂停针对副总统莎拉的弹劾程序

环球网资讯 浏览 5281 07-26
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11