关闭广告

把麦秸秆加进混凝土,强度竟然更高了

网易科技报道2025-09-10 00:00:02350人阅读

9月9日(星期二)消息,国外知名科学网站的主要内容如下:

《自然》网站(www.nature.com)

AI能学会说“我不知道”吗?幻觉难题背后的科学挑战

人工智能模型生成虚假文献引用(即“幻觉”问题)是当前自然语言处理领域面临的重要挑战。OpenAI最新发布的GPT-5模型在该问题上取得了阶段性进展,其通过增强实时信息检索与优化训练方式,在多项基准测试中表现出更低的幻觉率。

从技术机制上看,大型语言模型(LLM)本质上基于概率生成文本,其幻觉源于模型对训练数据中统计模式的泛化,而非真正的“理解”。尽管扩大参数规模与数据量能够改善性能,但在训练覆盖不足或存在冲突信息的领域中,模型仍易生成不实内容。完全消除幻觉目前仍被认为具有根本性困难。

OpenAI在GPT-5中重点提升了模型在开放域长文本生成中的准确性,并强化其“诚实性”机制,鼓励模型在无法完成任务时拒绝回答或表达不确定性。在允许联网的场景下,GPT-5在文献综述基准测试(如ScholarQA-CS)中表现接近甚至部分超过人类专家水平,但在离线环境下性能仍会显著下降。

横向对比显示,GPT-5在长文本事实性评测(如LongFact)中幻觉率低于自身前代模型及其他推理模型,但在某些以文档摘要真实性为评估目标的测试(如Vectara的Hughes评测)中略逊于谷歌的Gemini 2.0,总体仍处于业界领先水平。

目前,包括OpenAI在内的多家机构正积极研究模型“置信度表示”方法,旨在使模型能够对其生成内容的可靠性做出自我评估。学术界也指出,亟需建立更贴近实际应用场景的评估框架,充分考虑人类用户对模型输出的信任机制与使用心理。在推进模型能力的同时,构建用户对AI系统的合理预期与批判使用能力,同样

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

AMD显卡德国卖爆了!RX 9070 XT一款销量超RTX 50全系

快科技 浏览 215 11-27

特朗普行政令降低大麻管制等级,投资者“卖事实”,大麻股普跌

华尔街见闻官方 浏览 242 12-19

曝夏海钧想离婚保住巨额财产!恒大“最大债主”,正面临多重暴击

深蓝财经 浏览 326 09-21

申花1-1蔚山,阿苏埃建功+屡失良机,路德维格松扳平

懂球帝 浏览 302 10-02

埃安N60上市10.68万起 标配激光雷达/零重力座椅

网易汽车 浏览 9 04-29

唐国强走了35年的前妻 让两个残疾儿子承受了恶意

来科点谱 浏览 2921 08-08

辽宁动真格了!一个“老大哥”的AI逆袭

智谷趋势 浏览 2215 07-12

河南:大力引进培育人工智能领域专精特新企业

经济观察报 浏览 4851 08-10

法媒:蒙彼利埃陷入财务困境,将出售俱乐部女足球队

懂球帝 浏览 2870 08-07

以极右翼部长谴责内塔尼亚胡 威胁要推翻以政府

环球网资讯 浏览 6690 08-11

9年造假200亿,退市!

诗与星空 浏览 1918 08-13

一家6口迪拜旅游被滞留 3个老人患病降压药得掰一半吃

大象新闻 浏览 154 03-03

中国男篮一分之差夺得亚洲杯亚军 连央视也感叹"陌生"

澎湃新闻 浏览 554 08-18

特朗普:半导体关税要来了 可能达到300%

参考消息 浏览 516 08-17

专家:以伊局势可能可能面临三条路 都不是"赢家之路"

红星新闻 浏览 8291 06-18

全网最后一批躺赚博主,也被AI挤兑失业了

新周刊 浏览 271 10-13

新年强势开局!AI需求叠加供给趋紧,存储芯片迎来集体反弹

华尔街见闻官方 浏览 192 01-07

瞭望 | 武大遥感技术:太空之眼照见未来

新华社 浏览 416 08-19

去年的今天:辽宁将郭艾伦的顶薪独家签约权正式转让给广州

直播吧 浏览 366 08-29

月销破2万辆 极狐年销翻番在望 摸到准一线门槛

乐逗汽车 浏览 222 11-02

BaaS方案售20.8万起 蔚来ET5/ET5T远空套装版上市

网易汽车 浏览 181 12-19
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11