关闭广告

OpenAI新幻觉论文惹争议!GPT-5拉胯是测试基准有问题??

量子位2025-09-10 00:00:02377人阅读

henry 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI好不容易发了篇新论文,还是给GPT-5挽尊?

最近,《语言模型为何会产生幻觉?》这篇论文火了。

它提出模型有幻觉是因为:标准的训练和评估流程,更倾向于奖励“猜对”,而非承认不确定

正因如此,模型在面对不确定的问题时,往往会选择冒险猜测以获得更高评分。



所以,为了让模型“老实说不”,就应该重新设计评估指标,从而鼓励模型承认自己不会,惩罚随意猜测

而好巧不巧的是,OpenAI自家的GPT-5就最不爱猜测

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

视频:老战士起身敬礼场面看哭了

人民日报 浏览 253 09-04

7名候选人在2周内接连离世 德国政客:令人震惊

环球时报国际 浏览 395 09-06

津媒:国足战日本或采取5后卫阵型;需打出精气神改善舆论环境

懂球帝 浏览 3895 07-12

芦哲:降准降息利好哪些权益资产?

首席经济学家论坛 浏览 263 10-23

玻璃女王周群飞二次上市:苹果依赖度降至49.5%,转型之路仍长

征探财经 浏览 1214 07-12

华熙生物股价跌去81%!“玻尿酸女王”赵燕出手了

包不同 浏览 324 09-20

男子返乡养蝉带动村民创业:一晚最多捉1.3万只 1只1元

鲁中晨报 浏览 3393 07-12

孙俪晒儿子身高逆袭,真实生活令人心动不已

娱乐有时看 浏览 372 08-21

今年最流行的5双凉鞋,怎么搭都好看

LinkFashion 浏览 4611 06-11

苹果发布iOS 26开发者预览版Beta 6:液态玻璃、动效加强

快科技 浏览 3558 08-12

美退役上校揭秘B2连飞44小时内幕

现代快报 浏览 6683 06-26

300万中产宝妈,买出一个IPO

豹变 浏览 351 09-29

媒体:怒批欧洲软弱 结果特朗普自己成"吐槽大会"主角

新京报评论 浏览 179 12-12

登上热搜!王楚钦1年之内把世界前10赢了个遍 2个月斩单打23连胜

风过乡 浏览 4898 07-29

厄德高谈晋级世界杯:这种感觉无法用语言形容,简直疯狂至极

懂球帝 浏览 234 11-17

俄白联合军演两名美军军官"意外现身" 白俄防长:可随意参观

环球网资讯 浏览 307 09-16

劝中国原谅日本的黄循财被扒出家族史 祖父靠日军吃饭

博览历史 浏览 222 12-11

奥迪 Q6L e-tron / Sportback e-tron 双电机四驱版申报

IT之家 浏览 382 09-11

李想的“阳谋”:用VLA司机大模型构建随车代驾

网易汽车 浏览 447 05-10

东体介绍徐嘉敏生涯:像极了与申花足协杯比赛,跌宕起伏大起大落

直播吧 浏览 6328 07-28

油价继续下行,俄赤字激增29%

国际金融报 浏览 464 08-12
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11