关闭广告

把麦秸秆加进混凝土,强度竟然更高了

网易科技报道2025-09-10 00:00:02446人阅读

9月9日(星期二)消息,国外知名科学网站的主要内容如下:

《自然》网站(www.nature.com)

AI能学会说“我不知道”吗?幻觉难题背后的科学挑战

人工智能模型生成虚假文献引用(即“幻觉”问题)是当前自然语言处理领域面临的重要挑战。OpenAI最新发布的GPT-5模型在该问题上取得了阶段性进展,其通过增强实时信息检索与优化训练方式,在多项基准测试中表现出更低的幻觉率。

从技术机制上看,大型语言模型(LLM)本质上基于概率生成文本,其幻觉源于模型对训练数据中统计模式的泛化,而非真正的“理解”。尽管扩大参数规模与数据量能够改善性能,但在训练覆盖不足或存在冲突信息的领域中,模型仍易生成不实内容。完全消除幻觉目前仍被认为具有根本性困难。

OpenAI在GPT-5中重点提升了模型在开放域长文本生成中的准确性,并强化其“诚实性”机制,鼓励模型在无法完成任务时拒绝回答或表达不确定性。在允许联网的场景下,GPT-5在文献综述基准测试(如ScholarQA-CS)中表现接近甚至部分超过人类专家水平,但在离线环境下性能仍会显著下降。

横向对比显示,GPT-5在长文本事实性评测(如LongFact)中幻觉率低于自身前代模型及其他推理模型,但在某些以文档摘要真实性为评估目标的测试(如Vectara的Hughes评测)中略逊于谷歌的Gemini 2.0,总体仍处于业界领先水平。

目前,包括OpenAI在内的多家机构正积极研究模型“置信度表示”方法,旨在使模型能够对其生成内容的可靠性做出自我评估。学术界也指出,亟需建立更贴近实际应用场景的评估框架,充分考虑人类用户对模型输出的信任机制与使用心理。在推进模型能力的同时,构建用户对AI系统的合理预期与批判使用能力,同样

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

联盟各队在恐慌雷霆 战绩第一还手握快船2026年首轮签

仰卧撑FTUer 浏览 297 12-02

一只实验猴,换一套房?

中国新闻周刊 浏览 490 08-29

与五菱星光同平台 雪佛兰Groove官图发布

车质网 浏览 3419 07-01

胖东来发布针对博主"惊梦人"新声明:驳斥利益输送言论

大象新闻 浏览 144 05-06

辛巴“第五次退网”,单日销售64亿的头部神话,不干了

电商在线 浏览 509 08-20

图生视频新玩法刷爆外网:图上画两笔就能动起来,告别文本提示

机器之心Pro 浏览 476 08-19

现场直击|黄仁勋:非常看好机器人在中国的发展

网易科技报道 浏览 1118 07-17

博主虚构成本数据,编造“利益输送”,胖东来再发声明

大象新闻 浏览 118 05-06

保罗&欧文直呼内行飞翼状元佩奇后仰模仿对手动作 投诉其假摔

直播吧 浏览 537 08-23

蓝魔天才侧翼26岁离开NBA?19年10号秀雷迪什预计加盟立陶宛球队

直播吧 浏览 409 09-11

狂飙之后,高叶再破天花板,恩人孙红雷该欣慰了

林轻吟 浏览 6166 07-31

星空相册|天宇上演木星伴弦月

新华社 浏览 348 10-14

带着理想出发:理想汽车携手易烊千玺为时代青年发声

三言科技 浏览 396 09-29

谷歌: AI 狼没来,广告一哥稳坐钓鱼台

钛媒体APP 浏览 6654 07-24

亚布塞莱:我有冲劲斗志和侵略性 我的DNA与尼克斯完美契合

直播吧 浏览 460 09-02

每体:蒂亚戈教练工作集中在幕后,主要负责青训和跟进伤员恢复

懂球帝 浏览 407 09-21

亏掉一艘航母,蔚来的钱都花哪里了?

蓝鲸新闻 浏览 3303 07-17

东风风神L8开启预售 定位混动SUV 预售价12.99万元起

环球网资讯 浏览 576 08-12

每体:切尔西把对费尔明的报价提升到了6500万欧元

懂球帝 浏览 463 08-29

阿斯:塞巴略斯在阿隆索的计划里,他是皇马唯一组织者不会被出售

直播吧 浏览 6397 07-13

今夜,见证历史!全线暴涨!

券商中国 浏览 430 09-11
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11