关闭广告

OpenAI新幻觉论文惹争议!GPT-5拉胯是测试基准有问题??

量子位2025-09-10 00:00:02375人阅读

henry 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI好不容易发了篇新论文,还是给GPT-5挽尊?

最近,《语言模型为何会产生幻觉?》这篇论文火了。

它提出模型有幻觉是因为:标准的训练和评估流程,更倾向于奖励“猜对”,而非承认不确定

正因如此,模型在面对不确定的问题时,往往会选择冒险猜测以获得更高评分。



所以,为了让模型“老实说不”,就应该重新设计评估指标,从而鼓励模型承认自己不会,惩罚随意猜测

而好巧不巧的是,OpenAI自家的GPT-5就最不爱猜测

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

全是感动!《许我耀眼》33集大结局,是我今年看过最泪奔的大结局

娱乐圈笔娱君 浏览 260 10-14

"30年老公厕"被改成咖啡店后又遭封 当地城管部门回应

封面新闻 浏览 284 10-23

浆水、老盐、椒麻…这一批奶茶店狂下“猛料”

餐饮老板内参 浏览 8768 07-21

280亿“固收+”顶流离任,安信基金该如何应对?

侃见财经 浏览 2922 07-31

中国科技股深夜爆发,腾讯飙升9%,首批“政务龙虾”已上线

21世纪经济报道 浏览 121 03-11

马库斯看《南京照相馆》落泪:抱歉没早将照片呈现出来

极目新闻 浏览 5655 08-08

汪林朋坠亡20多天后 居然智家新任“掌舵人”定了

红星新闻 浏览 503 08-22

新疆夜空现不明飞行物 星空摄影师称系俄罗斯火箭

极目新闻 浏览 2323 07-05

妻子带着偏瘫丈夫跑半挂:能看见彼此 心里就是踏实的

红星新闻 浏览 445 09-20

疑科考队员公开出售"北极海水":全国仅100瓶 卖9999元

封面新闻 浏览 5482 08-09

以军称已按加沙地带停火协议完成撤军

极目新闻 浏览 283 10-12

广东千亿农商行拟再收编1家亏损村行,全省今年11家已被解散或合并

湘财Plus 浏览 2264 07-25

北汽也是好起来了,销量都超坦克了!

少数派报告Report 浏览 339 09-06

许绍雄情况不乐观!黄宗泽低调现身,佘诗曼落泪取消行程前往医院

萌神木木 浏览 252 10-28

插混家轿馈电油耗2L级 吉利银河A7预售10.38万起

网易汽车 浏览 8461 07-12

记者:切尔西不会加入伊萨克争夺战,俱乐部对现有前锋满意

懂球帝 浏览 10523 07-25

菲领导人称若台海发生战争菲将不得不介入 外交部回应

新京报 浏览 3427 08-08

解封账号后,鹿晗颜值回春,关晓彤举动暴露现状

趣文说娱 浏览 1778 07-11

西贝曾申请"速冻复热辣椒炒肉菜肴及其制备方法"专利

潇湘晨报 浏览 362 09-14

包钢板材厂爆炸工人被气浪掀飞 一铁球飞射砸塌二层楼

上游新闻 浏览 178 01-20

天才少年21亿买票上车,争夺A股人形机器人第一股?

节点财经 浏览 1721 07-18
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11