关闭广告

把麦秸秆加进混凝土,强度竟然更高了

网易科技报道2025-09-10 00:00:02451人阅读

9月9日(星期二)消息,国外知名科学网站的主要内容如下:

《自然》网站(www.nature.com)

AI能学会说“我不知道”吗?幻觉难题背后的科学挑战

人工智能模型生成虚假文献引用(即“幻觉”问题)是当前自然语言处理领域面临的重要挑战。OpenAI最新发布的GPT-5模型在该问题上取得了阶段性进展,其通过增强实时信息检索与优化训练方式,在多项基准测试中表现出更低的幻觉率。

从技术机制上看,大型语言模型(LLM)本质上基于概率生成文本,其幻觉源于模型对训练数据中统计模式的泛化,而非真正的“理解”。尽管扩大参数规模与数据量能够改善性能,但在训练覆盖不足或存在冲突信息的领域中,模型仍易生成不实内容。完全消除幻觉目前仍被认为具有根本性困难。

OpenAI在GPT-5中重点提升了模型在开放域长文本生成中的准确性,并强化其“诚实性”机制,鼓励模型在无法完成任务时拒绝回答或表达不确定性。在允许联网的场景下,GPT-5在文献综述基准测试(如ScholarQA-CS)中表现接近甚至部分超过人类专家水平,但在离线环境下性能仍会显著下降。

横向对比显示,GPT-5在长文本事实性评测(如LongFact)中幻觉率低于自身前代模型及其他推理模型,但在某些以文档摘要真实性为评估目标的测试(如Vectara的Hughes评测)中略逊于谷歌的Gemini 2.0,总体仍处于业界领先水平。

目前,包括OpenAI在内的多家机构正积极研究模型“置信度表示”方法,旨在使模型能够对其生成内容的可靠性做出自我评估。学术界也指出,亟需建立更贴近实际应用场景的评估框架,充分考虑人类用户对模型输出的信任机制与使用心理。在推进模型能力的同时,构建用户对AI系统的合理预期与批判使用能力,同样

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

加盟米兰至今只替补出场1次,斯基拉:奥多古可能在冬窗离队

懂球帝 浏览 282 11-17

法尔克:皇马考虑今夏以1.6亿至1.65亿欧元求购奥利塞

懂球帝 浏览 197 04-10

大洗牌!许多老板还在硬撑!

米筐投资 浏览 1293 07-31

水电概念集体走强 西藏天路、高争民爆等十余股涨停

网易财经 浏览 6786 07-21

重庆人工智能学院、重庆通用人工智能研究院揭牌 袁家军胡衡华会见何光彩一行并共同揭牌

上游新闻 浏览 458 09-09

石破茂决定辞职细节披露:小泉夜访并闭门会谈2小时

红星新闻 浏览 534 09-08

福建籍女网红流落柬埔寨街头 毒品检测呈阳性

中国新闻周刊 浏览 319 01-06

寻根!帕尔默探访祖父出生地加勒比圣基茨岛,受到英雄般的欢迎

直播吧 浏览 1446 07-16

这么丑的五指鞋,会是OOTD新风向吗?

时尚COSMO 浏览 4097 07-19

老板授意保安殴打他人致死一审被判无罪 检方提起抗诉

环球网资讯 浏览 1424 08-10

李亚鹏带货卖超千万?网友说他是不会蹭热度的人

安宁007 浏览 277 01-19

硬地23连胜!辛纳直落两盘击败迪亚洛,晋级辛辛那提大师赛16强

直播吧 浏览 8163 08-12

800亿江西锂王,抄底阿根廷盐湖

21财闻汇 浏览 489 08-20

门票30万!高端纯电大三排SUV迎来大决战|汽车观察

封面新闻 浏览 571 08-22

最长纯电续航335km 智己LS8动力曝光

车质网 浏览 194 12-23

飞行员举报情人诈骗700余万 被告人获刑12年

红星新闻 浏览 276 01-06

费内巴切新闻官辟谣:穆里尼奥从未发表过任何有关杜兰的声明

懂球帝 浏览 3600 07-17

巨星李连杰病倒,网友抓抛妻弃女不放

包饺子ai剪辑 浏览 591 08-20

卖房自救的清华学霸,要IPO了

财通社 浏览 6241 08-07

怒撕S家后,张兰转身卖货:这个快70岁女人,从未向命运低头!

娱乐白名单 浏览 6765 07-14

与马斯克关系缓和?特朗普澄清不会“摧毁”马斯克公司

华尔街见闻官方 浏览 2136 07-25
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11