参考指南

9月9日（星期二）消息，国外知名科学网站的主要内容如下：

《自然》网站（www.nature.com）

AI能学会说“我不知道”吗？幻觉难题背后的科学挑战

人工智能模型生成虚假文献引用（即“幻觉”问题）是当前自然语言处理领域面临的重要挑战。OpenAI最新发布的GPT-5模型在该问题上取得了阶段性进展，其通过增强实时信息检索与优化训练方式，在多项基准测试中表现出更低的幻觉率。

从技术机制上看，大型语言模型（LLM）本质上基于概率生成文本，其幻觉源于模型对训练数据中统计模式的泛化，而非真正的“理解”。尽管扩大参数规模与数据量能够改善性能，但在训练覆盖不足或存在冲突信息的领域中，模型仍易生成不实内容。完全消除幻觉目前仍被认为具有根本性困难。

OpenAI在GPT-5中重点提升了模型在开放域长文本生成中的准确性，并强化其“诚实性”机制，鼓励模型在无法完成任务时拒绝回答或表达不确定性。在允许联网的场景下，GPT-5在文献综述基准测试（如ScholarQA-CS）中表现接近甚至部分超过人类专家水平，但在离线环境下性能仍会显著下降。

横向对比显示，GPT-5在长文本事实性评测（如LongFact）中幻觉率低于自身前代模型及其他推理模型，但在某些以文档摘要真实性为评估目标的测试（如Vectara的Hughes评测）中略逊于谷歌的Gemini 2.0，总体仍处于业界领先水平。

目前，包括OpenAI在内的多家机构正积极研究模型“置信度表示”方法，旨在使模型能够对其生成内容的可靠性做出自我评估。学术界也指出，亟需建立更贴近实际应用场景的评估框架，充分考虑人类用户对模型输出的信任机制与使用心理。在推进模型能力的同时，构建用户对AI系统的合理预期与批判使用能力，同样

把麦秸秆加进混凝土，强度竟然更高了

牛弹琴：白宫...

伊朗警告：美...

前皇马体能教...

大众中国市场...

美的空界M5...

乌战报称摧毁...

特朗普签了！铜关税50%，韩国15%，印度25%，巴西50%！纽约铜价暴跌20%

彭小苒的逆袭不止“紫衣杀”

古偶丑男又来了，到底是谁在力捧他！

印度的崩溃，正是中国的清醒剂！

国内两家杜莎夫人蜡像馆接连关停北京馆票价刚下调

霍震霆与两儿子齐聚北京：父子同场见证是一种光荣

中美会谈结束中方公布的成果里有两件事让人没想到

阿维塔12四激光版上市权益后25.99万元起售

397场，凯尔-沃克追平英超历史边后卫首发次数纪录

换装全新设计语言北京EU8申报图曝光

欧冠金靴赔率：哈兰德、姆巴佩前二，萨拉赫、莱万并列第三

蔚来汽车再融资10亿美元冲刺四季度扭亏

镜报：拉什福德的代表本周与曼联高层会谈，旨在打破转会僵局

追觅超跑亮相CES 1903马力零百加速仅需1.8秒

灵感集结，能量共振

程强：如何看待当前育儿政策？

特朗普宣布将亲自设计战列舰:我是一个非常有审美的人

泽连斯基松口：停火不再是谈判条件

业内暗示辛巴确实出事，过段时间就会公布，员工也称团队遇到麻烦

俄乌战场惊现＂丐帮打法＂俄无人机绑棍子捅落乌无人机

男子欲偷渡上车才知去缅甸 8人合力抢夺方向盘逼停车

46岁福州大叔，干出一个美股IPO！

跟“雷尔法”一样豪华，再加个华为全家桶，卖35.99万元贵了吗？

上新 || 降温了！几套实用保暖穿搭请收好