关闭广告

OpenAI新幻觉论文惹争议!GPT-5拉胯是测试基准有问题??

量子位2025-09-10 00:00:02467人阅读

henry 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI好不容易发了篇新论文,还是给GPT-5挽尊?

最近,《语言模型为何会产生幻觉?》这篇论文火了。

它提出模型有幻觉是因为:标准的训练和评估流程,更倾向于奖励“猜对”,而非承认不确定

正因如此,模型在面对不确定的问题时,往往会选择冒险猜测以获得更高评分。



所以,为了让模型“老实说不”,就应该重新设计评估指标,从而鼓励模型承认自己不会,惩罚随意猜测

而好巧不巧的是,OpenAI自家的GPT-5就最不爱猜测

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

有爱,大马丁赛前与家乡球队阿尔多希维的球迷交换球衣

懂球帝 浏览 360 10-11

肾就是这样透支掉的!

科普中国 浏览 1605 10-25

山西80亩林地征地补偿价次次作假 "受指示"估价1348万

大风新闻 浏览 3629 07-16

“七年之咳”一朝得解 罪魁祸首竟是“小辣椒”

网易健康 浏览 9800 06-03

几毛钱的芯片,利润直追英伟达

钛媒体APP 浏览 10552 07-26

黄仁勋:中国军方才不会用美国芯片,人家有这能力

观察者网 浏览 2409 07-14

德媒:德总理拟动用俄央行在德冻结资产援乌

新华社 浏览 269 12-20

蔚来ES9领衔 蔚来三品牌全系亮相大湾区车展

网易汽车 浏览 66 06-01

丈夫抢儿被拘15日仍不送还 女博士:儿子快不认识我了

红星新闻 浏览 88 06-02

幂式“美拉德穿搭”太时髦了!显白又气质,谁穿谁好看!

Yuki女人故事 浏览 327 09-29

美驻华使馆发布"逆天言论":美日携手结束太平洋战争

扬子晚报 浏览 6636 08-09

记者:阿森纳将接触水晶宫,希望了解是否能不触发解约金签埃泽

直播吧 浏览 1942 07-15

美国防部将提供“战斧”决定权交给总统

国际在线 浏览 327 11-02

商用场景低耗优于竞品,AMD 锐龙 7 8700G 处理器评测

IT之家 浏览 8833 07-31

为减少对华稀土依赖 美国又盯上电子垃圾回收

澎湃新闻 浏览 2866 07-15

走向台前的CFO,先解决“内耗”

惊蛰研究所 浏览 2669 07-26

普京官邸遭91架乌无人机袭击 特朗普:我很生气

每日经济新闻 浏览 261 12-30

多名儿童在博物馆翻越围栏 有家长让孩子把标本抱手上

看看新闻Knews 浏览 3679 08-11

海归博士15年苦熬未来技术,获腾讯、“宁王”押注

中国企业家杂志 浏览 4720 08-13

王伟中已兼任内蒙古党校校长

界面新闻 浏览 396 10-02

外交部回应"中方如何看待普京总统此次访华"

财联社 浏览 33982 09-05
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11