关闭广告

把麦秸秆加进混凝土,强度竟然更高了

网易科技报道2025-09-10 00:00:02453人阅读

9月9日(星期二)消息,国外知名科学网站的主要内容如下:

《自然》网站(www.nature.com)

AI能学会说“我不知道”吗?幻觉难题背后的科学挑战

人工智能模型生成虚假文献引用(即“幻觉”问题)是当前自然语言处理领域面临的重要挑战。OpenAI最新发布的GPT-5模型在该问题上取得了阶段性进展,其通过增强实时信息检索与优化训练方式,在多项基准测试中表现出更低的幻觉率。

从技术机制上看,大型语言模型(LLM)本质上基于概率生成文本,其幻觉源于模型对训练数据中统计模式的泛化,而非真正的“理解”。尽管扩大参数规模与数据量能够改善性能,但在训练覆盖不足或存在冲突信息的领域中,模型仍易生成不实内容。完全消除幻觉目前仍被认为具有根本性困难。

OpenAI在GPT-5中重点提升了模型在开放域长文本生成中的准确性,并强化其“诚实性”机制,鼓励模型在无法完成任务时拒绝回答或表达不确定性。在允许联网的场景下,GPT-5在文献综述基准测试(如ScholarQA-CS)中表现接近甚至部分超过人类专家水平,但在离线环境下性能仍会显著下降。

横向对比显示,GPT-5在长文本事实性评测(如LongFact)中幻觉率低于自身前代模型及其他推理模型,但在某些以文档摘要真实性为评估目标的测试(如Vectara的Hughes评测)中略逊于谷歌的Gemini 2.0,总体仍处于业界领先水平。

目前,包括OpenAI在内的多家机构正积极研究模型“置信度表示”方法,旨在使模型能够对其生成内容的可靠性做出自我评估。学术界也指出,亟需建立更贴近实际应用场景的评估框架,充分考虑人类用户对模型输出的信任机制与使用心理。在推进模型能力的同时,构建用户对AI系统的合理预期与批判使用能力,同样

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

这样的“恶女”人设,真太爽了!

伊周潮流 浏览 318 11-15

一对姑侄搭档,接掌320亿零食王国

21财闻汇 浏览 9258 07-31

“有趣”的时髦,藏在穿搭里

Yuki女人故事 浏览 8811 08-14

林慧卿:我国第一代乒乓球削球女王,退役后如何?

阿光的技巧课堂 浏览 385 09-29

美越贸易协议被指将影响一些中国商品 外交部回应

财联社 浏览 4858 07-04

中国稀土创始人被踢出董事会 否认2亿债务称被外商坑

界面新闻 浏览 665 08-23

5月开车撞利物浦球迷的司机承认故意撞人,预计12月15日宣判

懂球帝 浏览 314 11-27

阿里正把自己装进赛博分身

虎嗅APP 浏览 285 01-16

原美团平台技术部负责人司天歌离职,大象已经显示为DX

大厂青年 浏览 519 08-22

“国家队”出手,齐筑人工智能安全防线,以模治模,防止“养虎为患”

上观新闻 浏览 8805 07-28

清华团队提出药物相互作用预测方法,预测准确率提升近三成

DeepTech深科技 浏览 395 09-22

家居龙头再现高层“地震”:富森美董事长刘兵突遭留置

密探财经 浏览 1486 07-25

大量iPhone 17系列新机无法激活 苹果客服回应

界面新闻 浏览 387 10-15

状态比10年前更好,她到底做对了什么?

黎贝卡的异想世界 浏览 273 02-03

卡耐基梅隆大学发现让AI更聪明的秘诀:犯错后自我纠正

科技行者 浏览 322 01-23

票房破89亿,只是个开始,70岁的成龙,要掀起一波“新高潮”了

娱乐圈笔娱君 浏览 2858 08-14

特朗普竞选新策略:硅谷大佬成关键助力

浏览 6207 07-14

何炅51岁无妻无子,且不再隐瞒身体状况了?

艳儿说电影 浏览 376 10-21

景德镇瑶里古镇收门票引发不满 村民纷纷指引游客逃票

极目新闻 浏览 8026 07-14

30万的玛莎拉蒂,被一抢而空!超跑皇后暴击中国人

象视汽车 浏览 240 12-21

英皇负债谢霆锋疯狂加班,霍汶希带货,为何内娱做不到如此和谐

不八卦会死星人 浏览 504 08-22
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11