关闭广告

香港科技大学团队发现形式化验证如何让AI推理更聪明

科技行者2026-02-04 00:00:01266人阅读


这是一个关于人工智能如何学会更好地思考的故事。想象一下,你在教一个聪明但有点"散漫"的孩子做数学题。这个孩子通常能猜对答案,但他的推理过程常常有漏洞——他会说"因为看起来对所以就对了",而不是真正理解为什么。如今,来自香港科技大学、上海人工智能实验室、浙江大学和香港浸会大学的研究团队发现了一个巧妙的办法,让这个"散漫的孩子"学会了像数学家一样严谨地思考。这项研究发表于2026年1月,论文编号为arXiv:2601.22642。

这个故事的核心很有趣:当今最强大的语言模型,比如ChatGPT和Claude,在处理复杂推理问题时,常常会犯一个致命的错误。它们会生成看似合理但逻辑上存在严重漏洞的答案。研究人员的发现更是令人担忧——即使在最终答案是对的情况下,推理过程中有39.3%的步骤在形式化验证中被"驳回"了。而当答案错误时,这个比例甚至高达52.4%。这就像一个学生虽然最后得到了正确答案,但他的计算过程完全是错的——纯粹是靠运气或者模式识别碰巧得对了。

研究团队的创新之处在于,他们不是简单地让AI生成答案就完事,而是在推理的每一步都加入了一个"严厉的数学老师"——形式化验证系统。这个"老师"会实时检查每

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

名嘴:比尔在快船是角色球员 不明白为什么大家说他会开心

直播吧 浏览 1733 07-27

普京批准俄罗斯与古巴军事合作协议

上观新闻 浏览 354 10-16

时隔六年进决赛!国安7-0十人玉昆将战河南 法比奥破门塞鸟两助

直播吧 浏览 488 08-21

男篮徐杰发声明:使他人怀孕为造谣!

胡侃社会百态 浏览 3997 08-11

德天空:纽卡报价埃基蒂克被法兰克福拒绝,曼联仍对其感兴趣

懂球帝 浏览 3942 07-16

第二代秦PLUS加推三款新车 限时6.98W起 真国民家轿

小蚊子聊车v 浏览 332 09-30

安世中国:已建立充足成品与在制品库存,能稳定持续满足客户订单需求

澎湃新闻 浏览 333 11-03

妥协还是进化?福特烈马也电动

爱驾天下 浏览 3642 07-28

‌香港夺冠内地票房仅120万 观众给张家辉上一课

靠谱电影君 浏览 512 08-24

从星巴克到汉堡王 外资消费品牌开启“汉化”之路?

观点机构 浏览 270 11-17

董璇新婚7天翻车?网友:男方“软饭硬吃”!

新娱港 浏览 6883 07-23

老公为给小白花铺路,将刚满月的儿子送去演戏,这种男人我不要了

阿漫阅读 浏览 412 09-18

喜报!识局助力一家机器人企业落户西南某地!

识局 浏览 352 10-28

冲U17女足世界杯8强!中国VS巴西首发:更换2人 周欣怡、宋语领衔

我爱英超 浏览 329 10-29

特朗普:每年花费数十亿美元保护和支持以色列

鲁中晨报 浏览 1165 06-30

媒体:俄乌战场“飞出”的无人机 为何让欧洲如此忧惧

极目新闻 浏览 457 09-29

特朗普:加沙停火协议已“接近达成”

新京报 浏览 282 09-28

航空公司“锁定座位”再引热议 律师评“有变相抬价嫌疑”

南方都市报 浏览 387 10-01

姚明将在今年开始正式领取NBA退休金,每月可领约1.3万人民币

懂球帝 浏览 383 10-13

“军国主义”为何能在日本存续下来

国际在线 浏览 263 11-23

传OpenAI年化收入达120亿美元,ChatGPT周活跃用户达7亿

华尔街见闻官方 浏览 4658 07-31
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11