关闭广告

把麦秸秆加进混凝土,强度竟然更高了

网易科技报道2025-09-10 00:00:02351人阅读

9月9日(星期二)消息,国外知名科学网站的主要内容如下:

《自然》网站(www.nature.com)

AI能学会说“我不知道”吗?幻觉难题背后的科学挑战

人工智能模型生成虚假文献引用(即“幻觉”问题)是当前自然语言处理领域面临的重要挑战。OpenAI最新发布的GPT-5模型在该问题上取得了阶段性进展,其通过增强实时信息检索与优化训练方式,在多项基准测试中表现出更低的幻觉率。

从技术机制上看,大型语言模型(LLM)本质上基于概率生成文本,其幻觉源于模型对训练数据中统计模式的泛化,而非真正的“理解”。尽管扩大参数规模与数据量能够改善性能,但在训练覆盖不足或存在冲突信息的领域中,模型仍易生成不实内容。完全消除幻觉目前仍被认为具有根本性困难。

OpenAI在GPT-5中重点提升了模型在开放域长文本生成中的准确性,并强化其“诚实性”机制,鼓励模型在无法完成任务时拒绝回答或表达不确定性。在允许联网的场景下,GPT-5在文献综述基准测试(如ScholarQA-CS)中表现接近甚至部分超过人类专家水平,但在离线环境下性能仍会显著下降。

横向对比显示,GPT-5在长文本事实性评测(如LongFact)中幻觉率低于自身前代模型及其他推理模型,但在某些以文档摘要真实性为评估目标的测试(如Vectara的Hughes评测)中略逊于谷歌的Gemini 2.0,总体仍处于业界领先水平。

目前,包括OpenAI在内的多家机构正积极研究模型“置信度表示”方法,旨在使模型能够对其生成内容的可靠性做出自我评估。学术界也指出,亟需建立更贴近实际应用场景的评估框架,充分考虑人类用户对模型输出的信任机制与使用心理。在推进模型能力的同时,构建用户对AI系统的合理预期与批判使用能力,同样

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

切尔西首发:若昂·佩德罗出战

体坛周报 浏览 222 09-29

洛杉矶奥运会将新增团体赛?保利尼与罗马赛夺冠功勋教练结束合作

网球之家 浏览 4839 07-16

高盛突然宣布不裁员了,金融业要有大变了吗?

江瀚视野 浏览 2505 08-10

李斌上热搜!

电动知家 浏览 430 08-19

美媒调侃:吉迪因为三分绝杀湖人这球拿到了1亿的大合同

直播吧 浏览 361 09-10

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro 浏览 31 04-22

因凡蒂诺:降温休息非常重要,明年世界杯将启用带顶棚球场

懂球帝 浏览 9703 07-13

“90后”基金公司女员工,用他人账户炒股4年未申报,被罚3万元

红星资本局 浏览 7250 07-14

美国大满贯5项冠军全部诞生!国乒豪夺3金,诞生了五个不可思议!

侃球熊弟 浏览 6323 07-14

会面后态度反转!特朗普夸英特尔CEO"了不起"

网易科技报道 浏览 4796 08-12

英国拟对俄实施三年来“最大规模”制裁

浏览 4250 07-14

周先旺被查 疫情时曾面对央视镜头提到"革职以谢天下"

界面新闻 浏览 5251 07-09

行业“反内卷行动”首月,A股四大快递公司发布成绩单,3家单票收入仍下滑

红星资本局 浏览 335 09-21

M3旅行版上市售94.39万元 告别平行进口

网易汽车 浏览 249 11-02

但斌二季度美股持仓出炉!首次买入数字货币概念股!

私募排排网 浏览 5228 07-30

呼吸困难,需要警惕!

人民网 浏览 4675 11-22

续写变革篇章,雷诺集团的福兰时代来了

网易汽车 浏览 7977 08-06

张本智和第6局4-2领先时申请医疗暂停,随后打了王楚钦7-2

直播吧 浏览 413 08-12

美动用B-2轰炸机等超125架飞机打击伊朗核设施

环球网资讯 浏览 10091 06-23

偶遇霍建华和朋友聚餐,霍建华喝得满脸通红

素衣读史 浏览 1785 07-17

男篮欧锦赛-字母哥29+6 瓦兰24+15 希腊击败立陶宛挺进四强

直播吧 浏览 368 09-10
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11