参考指南

9月9日（星期二）消息，国外知名科学网站的主要内容如下：

《自然》网站（www.nature.com）

AI能学会说“我不知道”吗？幻觉难题背后的科学挑战

人工智能模型生成虚假文献引用（即“幻觉”问题）是当前自然语言处理领域面临的重要挑战。OpenAI最新发布的GPT-5模型在该问题上取得了阶段性进展，其通过增强实时信息检索与优化训练方式，在多项基准测试中表现出更低的幻觉率。

从技术机制上看，大型语言模型（LLM）本质上基于概率生成文本，其幻觉源于模型对训练数据中统计模式的泛化，而非真正的“理解”。尽管扩大参数规模与数据量能够改善性能，但在训练覆盖不足或存在冲突信息的领域中，模型仍易生成不实内容。完全消除幻觉目前仍被认为具有根本性困难。

OpenAI在GPT-5中重点提升了模型在开放域长文本生成中的准确性，并强化其“诚实性”机制，鼓励模型在无法完成任务时拒绝回答或表达不确定性。在允许联网的场景下，GPT-5在文献综述基准测试（如ScholarQA-CS）中表现接近甚至部分超过人类专家水平，但在离线环境下性能仍会显著下降。

横向对比显示，GPT-5在长文本事实性评测（如LongFact）中幻觉率低于自身前代模型及其他推理模型，但在某些以文档摘要真实性为评估目标的测试（如Vectara的Hughes评测）中略逊于谷歌的Gemini 2.0，总体仍处于业界领先水平。

目前，包括OpenAI在内的多家机构正积极研究模型“置信度表示”方法，旨在使模型能够对其生成内容的可靠性做出自我评估。学术界也指出，亟需建立更贴近实际应用场景的评估框架，充分考虑人类用户对模型输出的信任机制与使用心理。在推进模型能力的同时，构建用户对AI系统的合理预期与批判使用能力，同样

把麦秸秆加进混凝土，强度竟然更高了

阿卡进四强上...

两大股东清仓...

把Nano ...

方程豹钛3拆...

渤海银行职业...

马赛主席在从...

宝藏BOSS冯擎峰：是CTO，也是CEO

曼联1-1平点球捧双冠！德赫亚回家谢什科亮相，一人缺阵预示转会

超2万家彩票店消失，暴富神话为啥不灵了？

AMD显卡德国卖爆了！RX 9070 XT一款销量超RTX 50全系

特朗普行政令降低大麻管制等级，投资者“卖事实”，大麻股普跌

曝夏海钧想离婚保住巨额财产！恒大“最大债主”，正面临多重暴击

申花1-1蔚山，阿苏埃建功+屡失良机，路德维格松扳平

埃安N60上市10.68万起标配激光雷达/零重力座椅

唐国强走了35年的前妻让两个残疾儿子承受了恶意

辽宁动真格了！一个“老大哥”的AI逆袭

河南：大力引进培育人工智能领域专精特新企业

法媒：蒙彼利埃陷入财务困境，将出售俱乐部女足球队

以极右翼部长谴责内塔尼亚胡威胁要推翻以政府

9年造假200亿，退市！

一家6口迪拜旅游被滞留 3个老人患病降压药得掰一半吃

中国男篮一分之差夺得亚洲杯亚军连央视也感叹＂陌生＂

特朗普：半导体关税要来了可能达到300%

专家：以伊局势可能可能面临三条路都不是＂赢家之路＂

全网最后一批躺赚博主，也被AI挤兑失业了

新年强势开局！AI需求叠加供给趋紧，存储芯片迎来集体反弹

瞭望 | 武大遥感技术：太空之眼照见未来

去年的今天：辽宁将郭艾伦的顶薪独家签约权正式转让给广州

月销破2万辆极狐年销翻番在望摸到准一线门槛

BaaS方案售20.8万起蔚来ET5/ET5T远空套装版上市