关闭广告

把麦秸秆加进混凝土,强度竟然更高了

网易科技报道2025-09-10 00:00:02197人阅读

9月9日(星期二)消息,国外知名科学网站的主要内容如下:

《自然》网站(www.nature.com)

AI能学会说“我不知道”吗?幻觉难题背后的科学挑战

人工智能模型生成虚假文献引用(即“幻觉”问题)是当前自然语言处理领域面临的重要挑战。OpenAI最新发布的GPT-5模型在该问题上取得了阶段性进展,其通过增强实时信息检索与优化训练方式,在多项基准测试中表现出更低的幻觉率。

从技术机制上看,大型语言模型(LLM)本质上基于概率生成文本,其幻觉源于模型对训练数据中统计模式的泛化,而非真正的“理解”。尽管扩大参数规模与数据量能够改善性能,但在训练覆盖不足或存在冲突信息的领域中,模型仍易生成不实内容。完全消除幻觉目前仍被认为具有根本性困难。

OpenAI在GPT-5中重点提升了模型在开放域长文本生成中的准确性,并强化其“诚实性”机制,鼓励模型在无法完成任务时拒绝回答或表达不确定性。在允许联网的场景下,GPT-5在文献综述基准测试(如ScholarQA-CS)中表现接近甚至部分超过人类专家水平,但在离线环境下性能仍会显著下降。

横向对比显示,GPT-5在长文本事实性评测(如LongFact)中幻觉率低于自身前代模型及其他推理模型,但在某些以文档摘要真实性为评估目标的测试(如Vectara的Hughes评测)中略逊于谷歌的Gemini 2.0,总体仍处于业界领先水平。

目前,包括OpenAI在内的多家机构正积极研究模型“置信度表示”方法,旨在使模型能够对其生成内容的可靠性做出自我评估。学术界也指出,亟需建立更贴近实际应用场景的评估框架,充分考虑人类用户对模型输出的信任机制与使用心理。在推进模型能力的同时,构建用户对AI系统的合理预期与批判使用能力,同样

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

邓肯保罗母校 名记:前公牛高管韦曼出任维克森林大学男女篮GM

直播吧 浏览 257 08-22

马斯克遭特斯拉股东集体起诉 本人怒斥发起律师"人渣"

红星新闻 浏览 1447 08-07

211大学女生大一就被断供生活费:怎么会有这样的爸妈

南风窗 浏览 289 08-24

男性感染HPV,丁丁会被切?别等“短4公分”才后悔!

网易健康 浏览 1149 06-12

中科宇航力箭一号接轨全球,首次实现“总装、测试、发射”一体化

IT之家 浏览 281 08-20

坦桑尼亚总统考察中企承建的多多马新国际机场项目

人民网 浏览 5916 06-22

美报告:中美一旦冲突 中国"家门口"美国人员很难幸存

环球时报国际 浏览 10175 07-12

宋佳、高圆圆、钟楚曦最近太美了!她们的穿搭普通人也可以借鉴

LinkFashion 浏览 6363 07-03

红旗首款越野车征名送车

大象新闻 浏览 132 10-13

张学友东莞演唱会高音多次破音 称想"中止演唱会退票"

极目新闻 浏览 241 09-02

WNBA历史首人!威尔逊32+20+5创纪录 男友阿德巴约从未双20

醉卧浮生 浏览 272 08-11

五十多岁的女性秋季别瞎打扮,这3个技巧实用还时髦,快收藏

静儿时尚达人 浏览 59 11-08

微微一笑澳大利亚主帅:这场比赛非常艰难,对结果很满意

直播吧 浏览 191 09-10

中金:简评深圳住房限购政策调整

365财经plus 浏览 189 09-09

巨星传奇预计上半年净利850万:同比降67% 捆绑周杰伦炒作

雷递 浏览 9096 08-10

世界范围最想和谁做队友?侯永永:如果只能选一位,那肯定是梅西

直播吧 浏览 340 08-12

中国汽车保有量有望突破4亿辆 年产销有望达4000万辆

智车情报局 浏览 7159 07-26

台北一醉酒女被男子拖墙边性侵超10分钟 现场无人制止

都市快报橙柿互动 浏览 106 10-16

近两个月13家券商收罚单 投行、经纪业务是重灾区

证券时报 浏览 35 11-17

美股三大股指高开 纳指盘初涨0.87%

证券时报 浏览 77 10-25

39岁生日当天佩通坦出庭 法院将判定其是否被正式解职

极目新闻 浏览 296 08-22
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11