关闭广告

把麦秸秆加进混凝土,强度竟然更高了

网易科技报道2025-09-10 00:00:02352人阅读

9月9日(星期二)消息,国外知名科学网站的主要内容如下:

《自然》网站(www.nature.com)

AI能学会说“我不知道”吗?幻觉难题背后的科学挑战

人工智能模型生成虚假文献引用(即“幻觉”问题)是当前自然语言处理领域面临的重要挑战。OpenAI最新发布的GPT-5模型在该问题上取得了阶段性进展,其通过增强实时信息检索与优化训练方式,在多项基准测试中表现出更低的幻觉率。

从技术机制上看,大型语言模型(LLM)本质上基于概率生成文本,其幻觉源于模型对训练数据中统计模式的泛化,而非真正的“理解”。尽管扩大参数规模与数据量能够改善性能,但在训练覆盖不足或存在冲突信息的领域中,模型仍易生成不实内容。完全消除幻觉目前仍被认为具有根本性困难。

OpenAI在GPT-5中重点提升了模型在开放域长文本生成中的准确性,并强化其“诚实性”机制,鼓励模型在无法完成任务时拒绝回答或表达不确定性。在允许联网的场景下,GPT-5在文献综述基准测试(如ScholarQA-CS)中表现接近甚至部分超过人类专家水平,但在离线环境下性能仍会显著下降。

横向对比显示,GPT-5在长文本事实性评测(如LongFact)中幻觉率低于自身前代模型及其他推理模型,但在某些以文档摘要真实性为评估目标的测试(如Vectara的Hughes评测)中略逊于谷歌的Gemini 2.0,总体仍处于业界领先水平。

目前,包括OpenAI在内的多家机构正积极研究模型“置信度表示”方法,旨在使模型能够对其生成内容的可靠性做出自我评估。学术界也指出,亟需建立更贴近实际应用场景的评估框架,充分考虑人类用户对模型输出的信任机制与使用心理。在推进模型能力的同时,构建用户对AI系统的合理预期与批判使用能力,同样

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

拜仁官方:后卫斯塔尼希奇今日回归合练

懂球帝 浏览 266 10-21

上海AI实验室推出ATLAS:让AI在科学推理中"败下阵来"的超级考场

科技行者 浏览 183 01-20

阿里,开大了

华商韬略 浏览 407 08-22

阅兵3名旗手亮相 平均身高189厘米

新华社 浏览 414 08-22

或2027年发布 全新丰田凌放Harrier谍照曝光

车质网 浏览 238 10-20

广厦总经理:季后赛多人带伤作战 很多人打了封闭或者消炎针作战

直播吧 浏览 384 09-01

全市场:加拉塔萨雷提出分三期支付奥斯梅恩转会费,总价7500万欧

直播吧 浏览 5427 07-14

消息称苹果计划2026年底进军智能眼镜市场,重塑全球AR光学供应链

IT之家 浏览 157 02-03

"30亿私募跑路"细节公布 嫌犯叫嚣"有本事定我的罪"

红星资本局 浏览 403 10-01

欧盟限制中国企业参与5G建设,商务部回应:坚决反对

时代周报 浏览 189 01-23

“芭蕾运动鞋”越来越流行,全世界的时髦女人都在穿

LinkFashion 浏览 40 04-22

避开这6个防暑降温误区,助你安然度夏

人民网 浏览 3863 06-18

更智能更豪华 乐道L90加配置会贵多少?

网易汽车 浏览 178 01-10

董璇自曝二婚!刚领证男方身份被扒

娱乐看阿敞 浏览 4919 07-16

21岁艾菲尔丁落选U22国足名单,本赛季中超仅出战4次

直播吧 浏览 437 08-23

新势力半年暴涨,压力给到自己

汽车K线 浏览 4949 07-08

数十家券商,火速上线!科创成长层,来了!

券商中国 浏览 7253 07-30

魔尊重楼杀入短剧江湖:黄志玮的荧幕突围战

乡野小珥 浏览 507 08-16

线上服装想借品牌破局,淘宝押注“秀场”直播带货

第一财经资讯 浏览 344 09-09

特朗普放话部署核潜艇 俄方:美军部署早已被监控

浏览 146125 09-29

“全香港梦中情人”的李美琪,已走上另一条路

章眽八卦 浏览 404 09-10
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11