关闭广告

香港科技大学团队发现形式化验证如何让AI推理更聪明

科技行者2026-02-04 00:00:01156人阅读


这是一个关于人工智能如何学会更好地思考的故事。想象一下,你在教一个聪明但有点"散漫"的孩子做数学题。这个孩子通常能猜对答案,但他的推理过程常常有漏洞——他会说"因为看起来对所以就对了",而不是真正理解为什么。如今,来自香港科技大学、上海人工智能实验室、浙江大学和香港浸会大学的研究团队发现了一个巧妙的办法,让这个"散漫的孩子"学会了像数学家一样严谨地思考。这项研究发表于2026年1月,论文编号为arXiv:2601.22642。

这个故事的核心很有趣:当今最强大的语言模型,比如ChatGPT和Claude,在处理复杂推理问题时,常常会犯一个致命的错误。它们会生成看似合理但逻辑上存在严重漏洞的答案。研究人员的发现更是令人担忧——即使在最终答案是对的情况下,推理过程中有39.3%的步骤在形式化验证中被"驳回"了。而当答案错误时,这个比例甚至高达52.4%。这就像一个学生虽然最后得到了正确答案,但他的计算过程完全是错的——纯粹是靠运气或者模式识别碰巧得对了。

研究团队的创新之处在于,他们不是简单地让AI生成答案就完事,而是在推理的每一步都加入了一个"严厉的数学老师"——形式化验证系统。这个"老师"会实时检查每

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

ESG领跑者|对话英飞凌高级副总裁于代辉:如何以半导体技术撬动全球减碳未来?

澎湃新闻 浏览 408 08-25

美方威胁中国若继续买俄油将面临更高关税 外交部回应

澎湃新闻 浏览 878 07-31

专访朱江明:零跑汽车是一只“乌龟”

中国企业家杂志 浏览 381 09-01

马罗塔:国米不考虑中途换帅

体坛周报 浏览 311 09-29

古尔曼预测苹果 AirPods Pro 3 耳机今年发布,支持心率监测功能

IT之家 浏览 421 08-25

离开央视为钱四处奔波的李思思,已然风光不再

TVB的四小花 浏览 163 02-02

开价172亿收回极氪,李书福溢价收购到底想干嘛?

江瀚视野 浏览 6483 07-27

杜锋:希望大家能保持整场的强度,为年轻球员登场争取机会

懂球帝 浏览 172 01-29

罗永浩吐槽西贝"几乎全是预制菜太恶心" 最新回应来了

都市快报橙柿互动 浏览 723 09-11

半导体鼻祖,被中国对手“卷”到悬崖边

汽车公社 浏览 437 05-29

3600点之后,投资标配“现金为王”

郭施亮 浏览 8201 08-06

被他“舍弃”的马思纯,跟张哲轩竟发光发热?

策略剖析 浏览 364 09-01

曝楚铁男内幕交易,曾演《一起来看流星雨》,与董事长男友被刑拘

扒虾侃娱 浏览 367 09-10

成本5亿,超20位明星出演,《南京照相馆》的暑期档冠军对手来了

靠谱电影君 浏览 6405 08-05

看到郭宇欣跑龙套旧照,站杨紫身边一点不输,才知啥叫小红靠捧

温柔娱公子 浏览 219 11-11

媒体:一张照片传遍全网 特朗普与以总理上演"真人秀"

新民晚报 浏览 387 10-01

71岁宁波中行原行长移送审查起诉,被指违规兼职、收受巨额财物

湘财Plus 浏览 1614 07-22

纳斯达克拟修改针对小型IPO和中企的上市规则

界面新闻 浏览 346 09-04

韩媒:美国提要求 施压韩国应对"台湾有事"

环球时报国际 浏览 5735 07-26

记者:卢克曼离队的做法过于极端,国米应充分考虑后再签下他

懂球帝 浏览 1986 08-10

比亚迪海狮06上市 售价13.98万-16.38万

网易科技报道 浏览 2147 07-25
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11