关闭广告

OpenAI新幻觉论文惹争议！GPT-5拉胯是测试基准有问题？？

量子位2025-09-10 00:00:02463人阅读

henry 发自凹非寺
量子位 | 公众号 QbitAI

OpenAI好不容易发了篇新论文，还是给GPT-5挽尊？

最近，《语言模型为何会产生幻觉？》这篇论文火了。

它提出模型有幻觉是因为：标准的训练和评估流程，更倾向于奖励“猜对”，而非承认不确定

正因如此，模型在面对不确定的问题时，往往会选择冒险猜测以获得更高评分。

所以，为了让模型“老实说不”，就应该重新设计评估指标，从而鼓励模型承认自己不会，惩罚随意猜测

而好巧不巧的是，OpenAI自家的GPT-5就最不爱猜测

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

精彩推荐

特朗普最后通牒已下俄专家：我们不怕他不敢得罪中印

掌青说历史浏览 3775 07-16

第三届CATA航空大会在京举办

北京商报浏览 338 10-25

无论买咖啡还是找车位只需动动嘴体验理想L系焕新版

网易汽车浏览 520 06-16

其实，零百加速5秒的新规才是利好车企

速度计浏览 267 11-17

能否碾压？GPT-5传8月初发布，五大看点全解析

网易科技报道浏览 6554 07-25

最近很火的发型，原来这么简单！

黎贝卡的异想世界浏览 338 11-02

标普新高背后的隐忧：曾精准预测08危机的经济学家揭秘美国经济“暴风雨前的平静”

智通财经浏览 4593 07-25

诺丁汉森林公布扩建主场计划，将把主场扩建到52000座

懂球帝浏览 295 12-15

潮汕三兄弟造“电驴”，9个月狂揽148亿

雷达财经浏览 253 02-05

6.4万的特斯拉FSD将成为历史！

新车评网浏览 301 01-20

为何冬季容易睡眠障碍

健康中国浏览 10186 12-06

以方收到哈马斯对停火提案回应或在多哈间接谈判

新京报浏览 5331 07-05

女子商场遭挟持被捅20余刀靠隆胸假体活命警方通报

鲁中晨报浏览 3515 06-15

柬泰本轮冲突烈度远超以往中国特使穿梭调停

环球网资讯浏览 326 12-23

患者两次住院期间被发错药、少发药医院6人被问责

新京报浏览 1959 07-18

夏季皮肤控油“饮食攻略”

网易健康浏览 6249 02-26

新华财经|五年磨砺突破高端壁垒小米17系列旗舰产品展现硬核科技实力

新华社浏览 410 09-26

海盗船发布《使命召唤：黑色行动 7》联名外设，含键盘等多款产品

IT之家浏览 312 11-12

西贝召开1.8万人罗永浩作战大会罗永浩：敌人不是我

大象新闻浏览 379 09-14

京东启动校招，将开放3.5万个岗位

第一财经资讯浏览 4068 07-28

带着理想出发：理想汽车携手易烊千玺为时代青年发声

三言科技浏览 393 09-29

OpenAI新幻觉论文惹争议！GPT-5拉胯是测试基准有问题？？

选错方向少赚...

旧事重提！莱...

梁靖崑2-3...

球迷：中国男...

“资本家的丑...

碰瓷营销还是...

＂暴走团＂老人委屈：辛苦一辈子老了健身还要看人脸色

15年离婚拉锯落幕，“中国巴菲特”失去沃华医药实控权

孙颖莎生日晒与父母合照，一家三口共用一张脸

特朗普最后通牒已下俄专家：我们不怕他不敢得罪中印

第三届CATA航空大会在京举办

无论买咖啡还是找车位只需动动嘴体验理想L系焕新版

其实，零百加速5秒的新规才是利好车企

能否碾压？GPT-5传8月初发布，五大看点全解析

最近很火的发型，原来这么简单！

标普新高背后的隐忧：曾精准预测08危机的经济学家揭秘美国经济“暴风雨前的平静”

诺丁汉森林公布扩建主场计划，将把主场扩建到52000座

潮汕三兄弟造“电驴”，9个月狂揽148亿

6.4万的特斯拉FSD将成为历史！

为何冬季容易睡眠障碍

以方收到哈马斯对停火提案回应或在多哈间接谈判

女子商场遭挟持被捅20余刀靠隆胸假体活命警方通报

柬泰本轮冲突烈度远超以往中国特使穿梭调停

患者两次住院期间被发错药、少发药医院6人被问责

夏季皮肤控油“饮食攻略”

新华财经|五年磨砺突破高端壁垒小米17系列旗舰产品展现硬核科技实力

海盗船发布《使命召唤：黑色行动 7》联名外设，含键盘等多款产品

西贝召开1.8万人罗永浩作战大会罗永浩：敌人不是我

京东启动校招，将开放3.5万个岗位

带着理想出发：理想汽车携手易烊千玺为时代青年发声

OpenAI新幻觉论文惹争议！GPT-5拉胯是测试基准有问题？？

选错方向少赚...

旧事重提！莱...

梁靖崑2-3...

球迷：中国男...

“资本家的丑...

碰瓷营销还是...

＂暴走团＂老人委屈：辛苦一辈子 老了健身还要看人脸色

15年离婚拉锯落幕，“中国巴菲特”失去沃华医药实控权

孙颖莎生日晒与父母合照，一家三口共用一张脸

特朗普最后通牒已下 俄专家：我们不怕他不敢得罪中印

第三届CATA航空大会在京举办

无论买咖啡还是找车位只需动动嘴 体验理想L系焕新版

其实，零百加速5秒的新规才是利好车企

能否碾压？GPT-5传8月初发布，五大看点全解析

最近很火的发型，原来这么简单！

标普新高背后的隐忧：曾精准预测08危机的经济学家揭秘美国经济“暴风雨前的平静”

诺丁汉森林公布扩建主场计划，将把主场扩建到52000座

潮汕三兄弟造“电驴”，9个月狂揽148亿

6.4万的特斯拉FSD将成为历史！

为何冬季容易睡眠障碍

以方收到哈马斯对停火提案回应 或在多哈间接谈判

女子商场遭挟持被捅20余刀靠隆胸假体活命 警方通报

柬泰本轮冲突烈度远超以往 中国特使穿梭调停

患者两次住院期间被发错药、少发药 医院6人被问责

夏季皮肤控油“饮食攻略”

新华财经|五年磨砺突破高端壁垒 小米17系列旗舰产品展现硬核科技实力

海盗船发布《使命召唤：黑色行动 7》联名外设，含键盘等多款产品

西贝召开1.8万人罗永浩作战大会 罗永浩：敌人不是我

京东启动校招，将开放3.5万个岗位

带着理想出发：理想汽车携手易烊千玺为时代青年发声

＂暴走团＂老人委屈：辛苦一辈子老了健身还要看人脸色

特朗普最后通牒已下俄专家：我们不怕他不敢得罪中印

无论买咖啡还是找车位只需动动嘴体验理想L系焕新版

以方收到哈马斯对停火提案回应或在多哈间接谈判

女子商场遭挟持被捅20余刀靠隆胸假体活命警方通报

柬泰本轮冲突烈度远超以往中国特使穿梭调停

患者两次住院期间被发错药、少发药医院6人被问责

新华财经|五年磨砺突破高端壁垒小米17系列旗舰产品展现硬核科技实力

西贝召开1.8万人罗永浩作战大会罗永浩：敌人不是我