关闭广告

OpenAI新幻觉论文惹争议!GPT-5拉胯是测试基准有问题??

量子位2025-09-10 00:00:02463人阅读

henry 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI好不容易发了篇新论文,还是给GPT-5挽尊?

最近,《语言模型为何会产生幻觉?》这篇论文火了。

它提出模型有幻觉是因为:标准的训练和评估流程,更倾向于奖励“猜对”,而非承认不确定

正因如此,模型在面对不确定的问题时,往往会选择冒险猜测以获得更高评分。



所以,为了让模型“老实说不”,就应该重新设计评估指标,从而鼓励模型承认自己不会,惩罚随意猜测

而好巧不巧的是,OpenAI自家的GPT-5就最不爱猜测

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特朗普最后通牒已下 俄专家:我们不怕他不敢得罪中印

掌青说历史 浏览 3775 07-16

第三届CATA航空大会在京举办

北京商报 浏览 338 10-25

无论买咖啡还是找车位只需动动嘴 体验理想L系焕新版

网易汽车 浏览 520 06-16

其实,零百加速5秒的新规才是利好车企

速度计 浏览 267 11-17

能否碾压?GPT-5传8月初发布,五大看点全解析

网易科技报道 浏览 6554 07-25

最近很火的发型,原来这么简单!

黎贝卡的异想世界 浏览 338 11-02

标普新高背后的隐忧:曾精准预测08危机的经济学家揭秘美国经济“暴风雨前的平静”

智通财经 浏览 4593 07-25

诺丁汉森林公布扩建主场计划,将把主场扩建到52000座

懂球帝 浏览 295 12-15

潮汕三兄弟造“电驴”,9个月狂揽148亿

雷达财经 浏览 253 02-05

6.4万的特斯拉FSD将成为历史!

新车评网 浏览 301 01-20

为何冬季容易睡眠障碍

健康中国 浏览 10186 12-06

以方收到哈马斯对停火提案回应 或在多哈间接谈判

新京报 浏览 5331 07-05

女子商场遭挟持被捅20余刀靠隆胸假体活命 警方通报

鲁中晨报 浏览 3515 06-15

柬泰本轮冲突烈度远超以往 中国特使穿梭调停

环球网资讯 浏览 326 12-23

患者两次住院期间被发错药、少发药 医院6人被问责

新京报 浏览 1959 07-18

夏季皮肤控油“饮食攻略”

网易健康 浏览 6249 02-26

新华财经|五年磨砺突破高端壁垒 小米17系列旗舰产品展现硬核科技实力

新华社 浏览 410 09-26

海盗船发布《使命召唤:黑色行动 7》联名外设,含键盘等多款产品

IT之家 浏览 312 11-12

西贝召开1.8万人罗永浩作战大会 罗永浩:敌人不是我

大象新闻 浏览 379 09-14

京东启动校招,将开放3.5万个岗位

第一财经资讯 浏览 4068 07-28

带着理想出发:理想汽车携手易烊千玺为时代青年发声

三言科技 浏览 393 09-29
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11