关闭广告

OpenAI新幻觉论文惹争议!GPT-5拉胯是测试基准有问题??

量子位2025-09-10 00:00:02189人阅读

henry 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI好不容易发了篇新论文,还是给GPT-5挽尊?

最近,《语言模型为何会产生幻觉?》这篇论文火了。

它提出模型有幻觉是因为:标准的训练和评估流程,更倾向于奖励“猜对”,而非承认不确定

正因如此,模型在面对不确定的问题时,往往会选择冒险猜测以获得更高评分。



所以,为了让模型“老实说不”,就应该重新设计评估指标,从而鼓励模型承认自己不会,惩罚随意猜测

而好巧不巧的是,OpenAI自家的GPT-5就最不爱猜测

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

天猫上线空调国补专场 宣布启动“南空北调”

网易科技报道 浏览 4467 07-18

今日热点:《男宝星球2》将推出中国组合;《街头霸王》真人版定档明年10月……

伊周潮流 浏览 185 09-06

今年秋天最流行的5款短发,穿什么都时髦!

LinkFashion 浏览 235 08-27

释印乐空降少林 释永信"心腹"干了十几年无缘方丈

火山诗话 浏览 622 07-30

王家卫繁花有黑幕!?

八卦疯叔 浏览 153 09-21

尼科尔:梅努在脚下有球时很出色,但当对手控球时他做得不够

懂球帝 浏览 134 10-14

俄外长在朝鲜同金正恩"长时间密谈" 还回答11个问题 

新华社 浏览 4029 07-14

一批汽车博主被禁言,刚刚微博CEO回应!据说此前交了一个“长名单”

深蓝财经 浏览 9655 07-14

中方回应冯德莱恩涉华言论:需要再平衡的是欧方心态

外交部网站 浏览 2640 07-10

特朗普称美国正以“前所未有的速度储备武器”

环球网资讯 浏览 9420 06-04

美澳联合军演启动 将首次在西太实测"堤丰"中导系统

澎湃新闻 浏览 940 07-15

利物浦1.36亿新援尴尬?0射1黄+7场仍0球

我爱英超 浏览 152 09-21

明确容错边界,让科研人员轻装跃进

南方都市报 浏览 2642 07-15

郭新娃/陈芳卉2-0击败对手,晋级中国香港羽毛球公开赛混双八强

直播吧 浏览 160 09-11

视远·正心明智——机器之心2025年度AI榜单正式启动

机器之心Pro 浏览 147 09-26

哈马斯高级领导人:准备撤出“黄线”以内武装人员

财联社 浏览 54 11-11

LLM把简单任务复杂化,Karpathy无语:有些任务无需那么多思考

机器之心Pro 浏览 9647 08-12

舰载防空武器成体系亮相 军事专家分析

环球网 浏览 202 09-04

前拜仁总监:签不下维尔茨算不上失败,英超的竞争力太强了

直播吧 浏览 2469 07-21

一年吸金330亿,低调跑鞋卖爆中国

21财闻汇 浏览 291 08-12

脱贫3年的县花715万建牛郎织女雕塑 调查近2年无结果

极目新闻 浏览 8464 07-12
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11