关闭广告

OpenAI新幻觉论文惹争议!GPT-5拉胯是测试基准有问题??

量子位2025-09-10 00:00:02191人阅读

henry 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI好不容易发了篇新论文,还是给GPT-5挽尊?

最近,《语言模型为何会产生幻觉?》这篇论文火了。

它提出模型有幻觉是因为:标准的训练和评估流程,更倾向于奖励“猜对”,而非承认不确定

正因如此,模型在面对不确定的问题时,往往会选择冒险猜测以获得更高评分。



所以,为了让模型“老实说不”,就应该重新设计评估指标,从而鼓励模型承认自己不会,惩罚随意猜测

而好巧不巧的是,OpenAI自家的GPT-5就最不爱猜测

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

巨大钻戒!马卡:C罗订婚戒指超一百万美元,很可能超10-15克拉

直播吧 浏览 2926 08-12

阿里加入“百镜大战”!首款夸克 AI眼镜亮相,公司称“已完成研发,将于年内发布”

时代周报 浏览 6186 07-28

纯电续航给到200km 2026款猛龙限时售15.38万起

网易汽车 浏览 251 08-20

上海男篮官方:戴昊租借加盟宁波男篮,租期2年

懂球帝 浏览 258 08-22

美日菲南海军演 中国军舰强行加入当场对菲撂下4个字

空天力量 浏览 33705 09-19

接近半数球队广东&辽宁&新疆&北京&山东等8队本次选秀未选人

直播吧 浏览 7676 07-26

运输机梯队:展现我军规模化战略投送能力全面提升

新华社 浏览 220 09-04

6名大学生在选矿厂遇难 涉事企业副总:制作了安全PPT

红星新闻 浏览 1503 07-26

媒体称中方取消对一位欧洲议会前议员的制裁 中方回应

外交部网站 浏览 2168 07-17

中国女排庄宇珊:我们今天在情绪上做的比较好,队友之间互相帮助

直播吧 浏览 5293 07-12

瑞幸咖啡美国漂流记:拒收现金引争议、五年三换审计师

阿尔法工场 浏览 10273 08-07

女演员许荔莎称赵晴介入自己与许凯恋情 于正最新发声

大风新闻 浏览 265 08-23

富豪们,究竟能生多少孩子!

说财猫 浏览 1727 07-18

"茅台八仙"冯小宁罕见被公开除名:18岁进入茅台酒厂

每日经济新闻 浏览 3471 07-30

2727个经销商也卖不动核桃乳,靠“六个核桃”发家的养元饮品上半年营利“双降”

时代周报 浏览 249 08-25

零食连锁被困愁城

海克财经 浏览 1674 07-31

业界最 256Gb 容量耐辐射 SLC,美光推首款太空认证 NAND 闪存

IT之家 浏览 3186 07-23

TA:维阿在接受马赛体检,100万欧租借费+1400万欧强制买断

直播吧 浏览 1090 08-07

决胜局5-11大逆转 石宇奇2-1晋级八强

钉钉陌上花开 浏览 248 08-29

传前腾讯Robotics X成员熊坤已加入智元机器人

DoNews 浏览 7453 08-12

下半年扩消费接续发力 服务消费将成为新增长点

商业观察杂志社 浏览 3395 08-07
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11