关闭广告

把麦秸秆加进混凝土,强度竟然更高了

网易科技报道2025-09-10 00:00:02447人阅读

9月9日(星期二)消息,国外知名科学网站的主要内容如下:

《自然》网站(www.nature.com)

AI能学会说“我不知道”吗?幻觉难题背后的科学挑战

人工智能模型生成虚假文献引用(即“幻觉”问题)是当前自然语言处理领域面临的重要挑战。OpenAI最新发布的GPT-5模型在该问题上取得了阶段性进展,其通过增强实时信息检索与优化训练方式,在多项基准测试中表现出更低的幻觉率。

从技术机制上看,大型语言模型(LLM)本质上基于概率生成文本,其幻觉源于模型对训练数据中统计模式的泛化,而非真正的“理解”。尽管扩大参数规模与数据量能够改善性能,但在训练覆盖不足或存在冲突信息的领域中,模型仍易生成不实内容。完全消除幻觉目前仍被认为具有根本性困难。

OpenAI在GPT-5中重点提升了模型在开放域长文本生成中的准确性,并强化其“诚实性”机制,鼓励模型在无法完成任务时拒绝回答或表达不确定性。在允许联网的场景下,GPT-5在文献综述基准测试(如ScholarQA-CS)中表现接近甚至部分超过人类专家水平,但在离线环境下性能仍会显著下降。

横向对比显示,GPT-5在长文本事实性评测(如LongFact)中幻觉率低于自身前代模型及其他推理模型,但在某些以文档摘要真实性为评估目标的测试(如Vectara的Hughes评测)中略逊于谷歌的Gemini 2.0,总体仍处于业界领先水平。

目前,包括OpenAI在内的多家机构正积极研究模型“置信度表示”方法,旨在使模型能够对其生成内容的可靠性做出自我评估。学术界也指出,亟需建立更贴近实际应用场景的评估框架,充分考虑人类用户对模型输出的信任机制与使用心理。在推进模型能力的同时,构建用户对AI系统的合理预期与批判使用能力,同样

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

印度的崩溃,正是中国的清醒剂!

米筐投资 浏览 419 09-21

国内两家杜莎夫人蜡像馆接连关停 北京馆票价刚下调

华夏时报 浏览 560 09-07

霍震霆与两儿子齐聚北京:父子同场见证是一种光荣

看看新闻Knews 浏览 434 09-03

中美会谈结束 中方公布的成果里有两件事让人没想到

博览历史 浏览 487 09-17

阿维塔12四激光版上市 权益后25.99万元起售

网易汽车 浏览 345 10-30

397场,凯尔-沃克追平英超历史边后卫首发次数纪录

懂球帝 浏览 324 10-27

换装全新设计语言 北京EU8申报图曝光

车质网 浏览 355 10-12

欧冠金靴赔率:哈兰德、姆巴佩前二,萨拉赫、莱万并列第三

懂球帝 浏览 481 09-01

蔚来汽车再融资10亿美元 冲刺四季度扭亏

证券时报 浏览 437 09-11

镜报:拉什福德的代表本周与曼联高层会谈,旨在打破转会僵局

懂球帝 浏览 6708 07-13

追觅超跑亮相CES 1903马力 零百加速仅需1.8秒

网易汽车 浏览 280 01-07

灵感集结,能量共振

时尚COSMO 浏览 272 01-01

程强:如何看待当前育儿政策?

首席经济学家论坛 浏览 9099 08-14

特朗普宣布将亲自设计战列舰:我是一个非常有审美的人

澎湃新闻 浏览 289 12-24

泽连斯基松口:停火不再是谈判条件

环球网资讯 浏览 560 08-20

业内暗示辛巴确实出事,过段时间就会公布,员工也称团队遇到麻烦

萌神木木 浏览 429 09-07

俄乌战场惊现"丐帮打法" 俄无人机绑棍子捅落乌无人机

鲁中晨报 浏览 319 10-26

男子欲偷渡上车才知去缅甸 8人合力抢夺方向盘逼停车

极目新闻 浏览 5911 07-27

46岁福州大叔,干出一个美股IPO!

深蓝财经 浏览 484 09-02

跟“雷尔法”一样豪华,再加个华为全家桶,卖35.99万元贵了吗?

吴佩频道 浏览 648 05-29

上新 || 降温了!几套实用保暖穿搭请收好

黎贝卡的异想世界 浏览 244 10-23
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11