关闭广告

OpenAI新幻觉论文惹争议!GPT-5拉胯是测试基准有问题??

量子位2025-09-10 00:00:02373人阅读

henry 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI好不容易发了篇新论文,还是给GPT-5挽尊?

最近,《语言模型为何会产生幻觉?》这篇论文火了。

它提出模型有幻觉是因为:标准的训练和评估流程,更倾向于奖励“猜对”,而非承认不确定

正因如此,模型在面对不确定的问题时,往往会选择冒险猜测以获得更高评分。



所以,为了让模型“老实说不”,就应该重新设计评估指标,从而鼓励模型承认自己不会,惩罚随意猜测

而好巧不巧的是,OpenAI自家的GPT-5就最不爱猜测

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

余承东:鸿蒙5终端数量突破了1000万

网易科技报道 浏览 8961 07-30

罗马诺:如果萨维尼奥离队,曼城的首选是引进罗德里戈

直播吧 浏览 309 08-21

强一股份IPO:始终稳居首位的大客户,未来是否还能带来丰厚利润

览富财经网 浏览 235 11-11

跨境网赌大佬佘智江将被引渡回中国 被指曾参与KK投资

红星新闻 浏览 227 11-12

一夜"蒸发"510亿美元 比尔·盖茨跌出彭博富豪榜前十

红星新闻 浏览 4549 07-12

梅州1-4云南,佩德罗-恩里克双响,迪力穆拉提任意球建功

懂球帝 浏览 266 10-25

杨旭文不再隐瞒!公开回应与陈若琳的关系?

喜欢历史的阿繁 浏览 131 12-05

踢球者:阿森纳门将卡尔-海因即将转会至不莱梅

懂球帝 浏览 415 08-22

规模超4000亿常熟银行,后劲不太够了

市值Observation 浏览 457 08-19

我是谁我在哪?热火官方把米切尔的旅游照玩坏了!

直播吧 浏览 821 07-16

想买车的再等等 5款大六座SUV将上市 都有杀手锏

火星说车 浏览 341 09-14

杨振宁获诺奖速度纪录至今未破 提出理论到获奖仅1年

澎湃新闻 浏览 271 10-19

阿尔特塔:对结果感到失望 为球员们感到自豪

体坛周报 浏览 452 09-01

普通人冬天就该这么穿,衣服不昂贵、搭配不老气,简单又日常

静儿时尚达人 浏览 198 11-30

见证历史 A股市值突破100万亿元大关

证券时报网 浏览 434 08-19

春季长高黄金期 家长要避开这3个误区

人民网 浏览 1609 05-31

谷歌豪掷25万美元,奖励发现Chrome浏览器高危漏洞的安全研究员

IT之家 浏览 2732 08-12

婚变传闻仅5天,窦骁大学同学为其发声

做一个合格的吃瓜群众 浏览 264 10-24

居然智家公告汪林朋身故 其被留置前曾有传言要"跑路"

第一财经资讯 浏览 4997 07-29

芒米Pocket Max掌机:模块化设计、大容量电池与强芯片的结合

IT之家 浏览 183 01-13

美总统威胁对尼日利亚动武 尼方回应

环球网资讯 浏览 274 11-03
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11