关闭广告

OpenAI、Anthropic互评:GPT存在谄媚行为,Claude不易出现幻觉”

IT之家2025-08-28 12:00:01422人阅读

IT之家 8 月 28 日消息,据外媒 Engadget 今日报道,OpenAI 和 Anthropic 共同宣布,同意评估彼此公开系统的安全对齐情况,并共享分析结果。总体来看,两家公司产品各有缺陷,也提供了改进未来安全测试的思路。


Anthropic 表示,它评估了 OpenAI 模型在谄媚、告密、自我保护、支持人类滥用,以及破坏 AI 安全评估和监管相关能力方面的表现。评估显示,OpenAI 的 o3 和 o4-mini 模型表现与 Anthropic 自家模型一致,但 GPT-4o 和 GPT-4.1 通用模型可能存在被滥用的风险。除 o3 外,其他测试模型在一定程度上都存在谄媚行为

Anthropic 的测试未包含 OpenAI 最新发布的 GPT-5。GPT-5 配备 Safe Completions 功能,旨在保护用户和公众免受潜在危险查询的影响。据IT之家近期的报道,OpenAI 曾因一名青少年在数月内与 ChatGPT 讨论自杀计划而最终自杀,面临首起不当死亡诉讼。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

工信部399批新车曝光!这波王炸车型谁看了不心动?

大象新闻 浏览 345 09-11

第六代RAV4荣放双擎精英版上市限时焕新价15.18万元

网易汽车 浏览 119 03-02

欧冠抽签:皇马战曼城利物浦 拜仁遇巴黎切尔西阿森纳

我爱英超 浏览 386 08-29

内维尔:曼联需要在场上有权威感的门将,现在这两个真的不行

懂球帝 浏览 402 09-01

德天空:埃里克森与狼堡的谈判只剩最后细节,预计很快进行体检

直播吧 浏览 319 09-11

官方:法国后卫泰奥-佩勒纳尔加盟梅州客家,穿5号球衣

懂球帝 浏览 175 01-27

小行星被 DART 撞击影像公开:喷射约 1.6 万吨尘埃与岩石

IT之家 浏览 430 08-23

机场航站楼有人坠落砸死保洁员 目击者:听到尖叫声

极目新闻 浏览 482 08-22

生若夏花去如秋叶,感人至深的人生最后告白

幕味儿 浏览 2462 07-24

心动信号?媒体人:库明加欣赏国王方案 “首发位置”是谈话重点

直播吧 浏览 8849 07-26

金融领域再打一"虎":年初辞职 一周前疑似失联

中国新闻周刊 浏览 630 09-11

小S暂无复出计划,制作人B2曝其近状,两人私下聊天内容曝光

扒虾侃娱 浏览 3264 07-15

AI灵巧手、AI创想师、AI智能体:这个夏令营让孩子在科技前沿玩转人工智能

东方网 浏览 9107 07-14

德保罗将身披迈阿密7号战袍:我准备好了!VAMOS INTER

直播吧 浏览 4924 07-26

状态火热!哈兰德本赛季代表曼城和国家队出场8次,打进13球

直播吧 浏览 266 09-22

可磁吸绝配iPhone!长江存储致态灵潮流版移动SSD 2TB图赏

快科技 浏览 176 12-16

李湘高调炫富再传噩耗,隐私被扒洗不白

生命之泉的奥秘 浏览 191 01-23

思林杰:重组称同行“改口”上下游 研发投入准确性或现疑云

金证研 浏览 6745 07-26

美“星舰”拟10月中旬再次试飞

新华社 浏览 338 10-01

甜馨再回应风波:不想让人评判妈妈,没有说爸爸

小海娱计 浏览 10821 07-23

小米智能摄像机 4 双摄版上架:一台顶两台,售 299 元

IT之家 浏览 423 08-23
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11