关闭广告

把麦秸秆加进混凝土,强度竟然更高了

网易科技报道2025-09-10 00:00:02195人阅读

9月9日(星期二)消息,国外知名科学网站的主要内容如下:

《自然》网站(www.nature.com)

AI能学会说“我不知道”吗?幻觉难题背后的科学挑战

人工智能模型生成虚假文献引用(即“幻觉”问题)是当前自然语言处理领域面临的重要挑战。OpenAI最新发布的GPT-5模型在该问题上取得了阶段性进展,其通过增强实时信息检索与优化训练方式,在多项基准测试中表现出更低的幻觉率。

从技术机制上看,大型语言模型(LLM)本质上基于概率生成文本,其幻觉源于模型对训练数据中统计模式的泛化,而非真正的“理解”。尽管扩大参数规模与数据量能够改善性能,但在训练覆盖不足或存在冲突信息的领域中,模型仍易生成不实内容。完全消除幻觉目前仍被认为具有根本性困难。

OpenAI在GPT-5中重点提升了模型在开放域长文本生成中的准确性,并强化其“诚实性”机制,鼓励模型在无法完成任务时拒绝回答或表达不确定性。在允许联网的场景下,GPT-5在文献综述基准测试(如ScholarQA-CS)中表现接近甚至部分超过人类专家水平,但在离线环境下性能仍会显著下降。

横向对比显示,GPT-5在长文本事实性评测(如LongFact)中幻觉率低于自身前代模型及其他推理模型,但在某些以文档摘要真实性为评估目标的测试(如Vectara的Hughes评测)中略逊于谷歌的Gemini 2.0,总体仍处于业界领先水平。

目前,包括OpenAI在内的多家机构正积极研究模型“置信度表示”方法,旨在使模型能够对其生成内容的可靠性做出自我评估。学术界也指出,亟需建立更贴近实际应用场景的评估框架,充分考虑人类用户对模型输出的信任机制与使用心理。在推进模型能力的同时,构建用户对AI系统的合理预期与批判使用能力,同样

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

苏州90后小伙买房被熟人骗2062万 开了间"反诈咖啡馆"

扬子晚报 浏览 6045 08-06

因妻子出轨 男子与堂哥合谋车祸撞死儿子骗保被判死刑

红星新闻 浏览 64 11-06

跟队:9月主场战委内瑞拉后,阿根廷至少一年半不会回到主场比赛

直播吧 浏览 247 08-29

父子在亲戚公司上班遇爆炸全身烧伤花费百万 亲戚回应

潇湘晨报 浏览 113 10-13

最强90花影后,赶紧火起来

独立鱼 浏览 198 09-06

官方:国米U23被分入意丙A组,完整赛程将于7月28日公布

懂球帝 浏览 657 07-26

生气发泄出来就好了?我们一直都做错了

科普中国 浏览 3770 06-03

达成停火22天内 仅有商定数量24%的卡车进入加沙

上观新闻 浏览 65 11-02

当《蚁人》照进现实: 西湖大学造出能爬会游、摔不坏的“机器小强”

都市快报橙柿互动 浏览 163 09-22

变天了!8月微型车终端销量揭晓,仅三款车超万,冠军突破4万辆!

购车前线 浏览 197 09-03

63.3度电池+60L油箱 小鹏X9增程版续航1602公里

网易汽车 浏览 72 10-24

起底"假院士"阮少平:头衔极多 其行骗足迹遍布多地

上游新闻 浏览 7294 08-07

自科斯切尔尼以来,萨利巴是阿森纳最快被换下的英超首发

懂球帝 浏览 202 09-01

乌克兰前议长街头被人连开约8枪身亡 俄方:另有内情

鲁中晨报 浏览 264 09-01

负债累累!百年巨头宣布破产保护

汽车工程师 浏览 271 06-16

你恐慌我贪婪!3600点上方,机构仍敢大手笔加仓的板块曝光

每经牛眼 浏览 4838 08-10

Kid退赛,脱人倒油:脱口秀撞梗抄袭难定义?

仙女事件簿 浏览 232 08-27

李连杰送大女儿陪嫁被嘲

萌神木木 浏览 3490 08-11

900亿市值通威股份,连续亏损7个季度

华美财经 浏览 3407 07-15

重磅利好!这一赛道,大爆发!

券商中国 浏览 7198 08-06

看完这些上镜穿搭,国庆“美美出片”不费力

黎贝卡的异想世界 浏览 152 09-22
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11