参考指南

9月9日（星期二）消息，国外知名科学网站的主要内容如下：

《自然》网站（www.nature.com）

AI能学会说“我不知道”吗？幻觉难题背后的科学挑战

人工智能模型生成虚假文献引用（即“幻觉”问题）是当前自然语言处理领域面临的重要挑战。OpenAI最新发布的GPT-5模型在该问题上取得了阶段性进展，其通过增强实时信息检索与优化训练方式，在多项基准测试中表现出更低的幻觉率。

从技术机制上看，大型语言模型（LLM）本质上基于概率生成文本，其幻觉源于模型对训练数据中统计模式的泛化，而非真正的“理解”。尽管扩大参数规模与数据量能够改善性能，但在训练覆盖不足或存在冲突信息的领域中，模型仍易生成不实内容。完全消除幻觉目前仍被认为具有根本性困难。

OpenAI在GPT-5中重点提升了模型在开放域长文本生成中的准确性，并强化其“诚实性”机制，鼓励模型在无法完成任务时拒绝回答或表达不确定性。在允许联网的场景下，GPT-5在文献综述基准测试（如ScholarQA-CS）中表现接近甚至部分超过人类专家水平，但在离线环境下性能仍会显著下降。

横向对比显示，GPT-5在长文本事实性评测（如LongFact）中幻觉率低于自身前代模型及其他推理模型，但在某些以文档摘要真实性为评估目标的测试（如Vectara的Hughes评测）中略逊于谷歌的Gemini 2.0，总体仍处于业界领先水平。

目前，包括OpenAI在内的多家机构正积极研究模型“置信度表示”方法，旨在使模型能够对其生成内容的可靠性做出自我评估。学术界也指出，亟需建立更贴近实际应用场景的评估框架，充分考虑人类用户对模型输出的信任机制与使用心理。在推进模型能力的同时，构建用户对AI系统的合理预期与批判使用能力，同样

把麦秸秆加进混凝土，强度竟然更高了

江汽集团董事...

iCAR超级...

丁真自曝曾遭...

市值减少约7...

伊总统：在确...

累计亏损60...

WTT大满贯男单：王楚钦4-0横扫张本智和夺冠！实现对张本8连胜

国家广电总局：截至 6 月末全国有线电视实际用户 2.06 亿户

网红“户晨风”，全网封禁

这样的“恶女”人设，真太爽了！

一对姑侄搭档，接掌320亿零食王国

“有趣”的时髦，藏在穿搭里

林慧卿：我国第一代乒乓球削球女王，退役后如何？

美越贸易协议被指将影响一些中国商品外交部回应

中国稀土创始人被踢出董事会否认2亿债务称被外商坑

5月开车撞利物浦球迷的司机承认故意撞人，预计12月15日宣判

阿里正把自己装进赛博分身

原美团平台技术部负责人司天歌离职，大象已经显示为DX

“国家队”出手，齐筑人工智能安全防线，以模治模，防止“养虎为患”

清华团队提出药物相互作用预测方法，预测准确率提升近三成

家居龙头再现高层“地震”：富森美董事长刘兵突遭留置

大量iPhone 17系列新机无法激活苹果客服回应

状态比10年前更好，她到底做对了什么？

卡耐基梅隆大学发现让AI更聪明的秘诀：犯错后自我纠正

票房破89亿，只是个开始，70岁的成龙，要掀起一波“新高潮”了

特朗普竞选新策略：硅谷大佬成关键助力

何炅51岁无妻无子，且不再隐瞒身体状况了？

景德镇瑶里古镇收门票引发不满村民纷纷指引游客逃票

30万的玛莎拉蒂，被一抢而空！超跑皇后暴击中国人

英皇负债谢霆锋疯狂加班，霍汶希带货，为何内娱做不到如此和谐