关闭广告

把麦秸秆加进混凝土,强度竟然更高了

网易科技报道2025-09-10 00:00:02452人阅读

9月9日(星期二)消息,国外知名科学网站的主要内容如下:

《自然》网站(www.nature.com)

AI能学会说“我不知道”吗?幻觉难题背后的科学挑战

人工智能模型生成虚假文献引用(即“幻觉”问题)是当前自然语言处理领域面临的重要挑战。OpenAI最新发布的GPT-5模型在该问题上取得了阶段性进展,其通过增强实时信息检索与优化训练方式,在多项基准测试中表现出更低的幻觉率。

从技术机制上看,大型语言模型(LLM)本质上基于概率生成文本,其幻觉源于模型对训练数据中统计模式的泛化,而非真正的“理解”。尽管扩大参数规模与数据量能够改善性能,但在训练覆盖不足或存在冲突信息的领域中,模型仍易生成不实内容。完全消除幻觉目前仍被认为具有根本性困难。

OpenAI在GPT-5中重点提升了模型在开放域长文本生成中的准确性,并强化其“诚实性”机制,鼓励模型在无法完成任务时拒绝回答或表达不确定性。在允许联网的场景下,GPT-5在文献综述基准测试(如ScholarQA-CS)中表现接近甚至部分超过人类专家水平,但在离线环境下性能仍会显著下降。

横向对比显示,GPT-5在长文本事实性评测(如LongFact)中幻觉率低于自身前代模型及其他推理模型,但在某些以文档摘要真实性为评估目标的测试(如Vectara的Hughes评测)中略逊于谷歌的Gemini 2.0,总体仍处于业界领先水平。

目前,包括OpenAI在内的多家机构正积极研究模型“置信度表示”方法,旨在使模型能够对其生成内容的可靠性做出自我评估。学术界也指出,亟需建立更贴近实际应用场景的评估框架,充分考虑人类用户对模型输出的信任机制与使用心理。在推进模型能力的同时,构建用户对AI系统的合理预期与批判使用能力,同样

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

黎智英等9名被告人一连4日进行求情 香港大量警员戒备

扬子晚报 浏览 315 01-13

120公里时速L3破局:广汽昊铂A800引领智能驾驶新赛道

澎湃新闻 浏览 284 11-27

逆风中打造「清欢节」:年销10亿的卸妆油女王,为何要用5年圈定10万核心用户?| 思路说vol.26

第一财经商业数据中心 浏览 4718 07-28

乐道汽车:L90不会有60度电池买断版,正研讨60度电池租赁方案

IT之家 浏览 6133 08-10

止步“五连涨”!美股12月“开门黑”

中新经纬 浏览 299 12-02

贺炜:洪水虽然可以漫过村超的草皮,但热爱永不沉没

懂球帝 浏览 5219 07-27

老年痴呆父亲掏出所有钱哽咽求女儿:能带我找妈妈吗

潇湘晨报 浏览 314 01-13

险企投资收益波动加大 业绩分化利润水平提升

证券市场周刊 浏览 368 10-11

6米29!人类高度极限再被改写,杜普兰蒂斯第13次破世界纪录

全景体育V 浏览 5535 08-13

搭载6缸发动机 宝马M3旅行版11月4日亮相

车质网 浏览 392 09-30

中航科工2025年上半年收入双位数增长

证券市场周刊 浏览 458 09-01

萨高大战流产!萨巴伦卡将挑战赛变授课堂,高芙被小白菜扫成服妹

网球之家 浏览 262 01-28

上海女子崩溃了:男邻居楼道内一丝不挂 还猛砸自家门

看看新闻Knews 浏览 540 09-09

奇瑞品牌大整合,成立“新四大”事业群

汽车公社 浏览 6787 07-08

车棚起火50余车烧毁损失超60万 事发4个月业主难维权

大风新闻 浏览 8973 08-10

王菲辛苦养大李嫣,谁料竟便宜了李亚鹏?

策略剖析 浏览 570 08-12

8岁男童北海银滩走失5天:监控显示其曾跑向沙滩

红星新闻 浏览 569 08-22

世界人工智能大会“首发首秀”集中亮相 荣耀推出首个GUI开源大模型

封面新闻 浏览 2651 07-27

医院被指欠工程款3年没还清 工人讨薪"过激"被拘

澎湃新闻 浏览 5978 08-08

《两只蝴蝶》词曲作者回应"赚了2个亿":只拿到5000元

极目新闻 浏览 582 08-17

一夜之间,矛盾又升级了!

米筐投资 浏览 349 10-13
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11