关闭广告

OpenAI、Anthropic互评:GPT存在谄媚行为,Claude不易出现幻觉”

IT之家2025-08-28 12:00:01535人阅读

IT之家 8 月 28 日消息,据外媒 Engadget 今日报道,OpenAI 和 Anthropic 共同宣布,同意评估彼此公开系统的安全对齐情况,并共享分析结果。总体来看,两家公司产品各有缺陷,也提供了改进未来安全测试的思路。


Anthropic 表示,它评估了 OpenAI 模型在谄媚、告密、自我保护、支持人类滥用,以及破坏 AI 安全评估和监管相关能力方面的表现。评估显示,OpenAI 的 o3 和 o4-mini 模型表现与 Anthropic 自家模型一致,但 GPT-4o 和 GPT-4.1 通用模型可能存在被滥用的风险。除 o3 外,其他测试模型在一定程度上都存在谄媚行为

Anthropic 的测试未包含 OpenAI 最新发布的 GPT-5。GPT-5 配备 Safe Completions 功能,旨在保护用户和公众免受潜在危险查询的影响。据IT之家近期的报道,OpenAI 曾因一名青少年在数月内与 ChatGPT 讨论自杀计划而最终自杀,面临首起不当死亡诉讼。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

男子围猎多名女性自称是"公务员" 有女子给他140万

极目新闻 浏览 160 05-09

速腾"喷粉"波及宝来 车主:只能用透明胶带封住出风口

每日经济新闻 浏览 25 06-17

人工智能激发云计算订单释放 相关基金重仓股大幅异动

证券时报 浏览 487 09-11

美国德州仪器与优必选达成战略合作

IT之家 浏览 277 12-15

毕马威:人工智能已成为推动中国产业升级与经济高质量发展的关键驱动力

澎湃新闻 浏览 3571 07-28

卫报:切尔西不愿满足加纳乔的定价;雅克松的要价为8000万镑

懂球帝 浏览 509 08-20

被美围绕的一周:上课、逛家、看展

黎贝卡的异想世界 浏览 352 10-20

听歌入睡真的“治愈”么?

网易健康 浏览 4082 03-14

生物芯片上海国家工程研究中心四川分中心在成都揭牌

封面新闻 浏览 410 10-20

今日热点:曾艳芬提醒丝芭传媒有聊天记录;边伯贤恶评者被罚款……

伊周潮流 浏览 294 12-20

杨蓉右脸烫伤后晒自拍:“带疤的脸很酷”

今古深日报 浏览 152 04-22

阿里、上汽孵化的斑马智行IPO!估值220亿却遭前CFO深夜炮轰

野马财经 浏览 516 08-25

“毛衣+豆腐裤”绝美!冬天就该这么穿!

Yuki女人故事 浏览 255 10-30

向上社交为何会失败?

虎嗅APP 浏览 7372 07-24

业界最 256Gb 容量耐辐射 SLC,美光推首款太空认证 NAND 闪存

IT之家 浏览 3440 07-23

云南鸿蒙智行购车补贴启动:三界可享,每台补 3000 元

IT之家 浏览 3912 07-14

官方公布雀巢巴黎水丑闻调查:欺诈消费者

新京报 浏览 2613 05-21

可坐4人的飞行汽车样车披露 今年7月已在武汉试飞

极目新闻 浏览 8873 08-13

787“梦想客机”首次致命空难 波音再陷沼泽

上游新闻 浏览 7940 06-14

他是著名演员,临终前也没听到儿子喊声爸?

妙知 浏览 348 10-17

沙特,一部活色生香的《一千零一夜》

时尚COSMO 浏览 340 10-25
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11