关闭广告

把麦秸秆加进混凝土,强度竟然更高了

网易科技报道2025-09-10 00:00:02450人阅读

9月9日(星期二)消息,国外知名科学网站的主要内容如下:

《自然》网站(www.nature.com)

AI能学会说“我不知道”吗?幻觉难题背后的科学挑战

人工智能模型生成虚假文献引用(即“幻觉”问题)是当前自然语言处理领域面临的重要挑战。OpenAI最新发布的GPT-5模型在该问题上取得了阶段性进展,其通过增强实时信息检索与优化训练方式,在多项基准测试中表现出更低的幻觉率。

从技术机制上看,大型语言模型(LLM)本质上基于概率生成文本,其幻觉源于模型对训练数据中统计模式的泛化,而非真正的“理解”。尽管扩大参数规模与数据量能够改善性能,但在训练覆盖不足或存在冲突信息的领域中,模型仍易生成不实内容。完全消除幻觉目前仍被认为具有根本性困难。

OpenAI在GPT-5中重点提升了模型在开放域长文本生成中的准确性,并强化其“诚实性”机制,鼓励模型在无法完成任务时拒绝回答或表达不确定性。在允许联网的场景下,GPT-5在文献综述基准测试(如ScholarQA-CS)中表现接近甚至部分超过人类专家水平,但在离线环境下性能仍会显著下降。

横向对比显示,GPT-5在长文本事实性评测(如LongFact)中幻觉率低于自身前代模型及其他推理模型,但在某些以文档摘要真实性为评估目标的测试(如Vectara的Hughes评测)中略逊于谷歌的Gemini 2.0,总体仍处于业界领先水平。

目前,包括OpenAI在内的多家机构正积极研究模型“置信度表示”方法,旨在使模型能够对其生成内容的可靠性做出自我评估。学术界也指出,亟需建立更贴近实际应用场景的评估框架,充分考虑人类用户对模型输出的信任机制与使用心理。在推进模型能力的同时,构建用户对AI系统的合理预期与批判使用能力,同样

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

被封杀4年后,赵薇现状如何?这些竟是家常便饭

温读史 浏览 543 08-12

"花坛白骨案"告破:女老板遭谋杀 凶手"换脸"逃亡28年

封面新闻 浏览 304 01-16

清华REMA框架:透视AI推理错误根源

科技行者 浏览 396 10-22

出海潮起!借力Uber、联动海外政府,文远知行、小马智行等中国自动驾驶企业集体“走出去”

华夏时报 浏览 7910 07-24

或命名为瑞虎3L 奇瑞瑞虎T13T谍照曝光

车质网 浏览 199 12-04

乘客称春秋航空因飞机没油延误8小时 航司回应

极目新闻 浏览 9167 06-18

中央批准 开除姜德果、唐德智党籍

北京日报客户端-长安街知事 浏览 247 03-03

迪马:国米已与卢克曼达成协议,无论卖人与否都准备投4000万

懂球帝 浏览 3740 07-17

对话Memories.ai:“人的记忆本质上是视觉,AI也该如此”

硅星人 浏览 314 11-17

突击队“对冲”无人机 俄乌激战红军城

上观新闻 浏览 1608 08-13

法国空中交通管制员罢工 30万旅客受影响

极目新闻 浏览 2292 07-04

限量发售 雷克萨斯IS500特别版官图发布

车质网 浏览 521 06-23

AI生成内容开始强制打上“电子水印”,虚假信息能有效杜绝吗

澎湃新闻 浏览 490 09-01

沈阳00后故意撞人猛踩油门下死手 身份被扒

鋭娱之乐 浏览 5695 08-14

徐彬:邵指导是第一个想让我出去踢球的;拿手菜有把子肉

懂球帝 浏览 242 02-03

水电概念集体走强 西藏天路、高争民爆等十余股涨停

网易财经 浏览 6786 07-21

最大续航605km 乐道L90将于7月上旬开启预售

车质网 浏览 6776 06-24

韩国防部给出核潜艇下水时间点 此前韩国已向中方保证

澎湃新闻 浏览 370 11-06

山姆也在卖冷冻2年的西兰花!回应:采用速冻工艺处理,需要-18°C储存

红星资本局 浏览 440 09-21

牧原股份:业绩增长、港股上市拓出海赛道、多项ESG指标居行业末位|ESG案例

网易财经ESG 浏览 563 08-12

孕期总失眠是怎么回事?

网易健康 浏览 1361 02-26
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11