关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者2025-10-22 00:00:02228人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

女警带儿子逛街遇行凶 徒手夺刀面部受伤差点伤到动脉

大象新闻 浏览 193 01-12

平安MVP陈淼清:匠心做事,用心服务

经理人杂志 浏览 397 08-19

阔腿裤失宠了,今年的“显瘦小黑裤”更时髦百搭!

LinkFashion 浏览 167 01-14

30年期美债拍卖稳健,美国国内需求为记录第三高

华尔街见闻官方 浏览 1045 07-11

美国务院批准对乌新军售

环球网资讯 浏览 320 08-30

谷歌翻译加入文本翻译AI模型,有快速与进阶模式可选

IT之家 浏览 233 11-04

连损四年,台积电称美国厂盈利

观察者网 浏览 416 08-20

男子开发顺风车抢单“外挂”软件获利200余万,被批准逮捕

澎湃新闻 浏览 459 08-12

鲍威尔回应遭刑事调查:都是借口 想逼美联储降息

红星新闻 浏览 211 01-13

美方突袭抓人 韩企工人:像"战区"一样 有人躲通风管

红星新闻 浏览 430 09-09

印度坠机事故幸存者在失事客机座位11A处被发现

每日经济新闻 浏览 6766 06-13

10个瞬间,回顾这一年

黎贝卡的异想世界 浏览 160 01-31

杀完鸡,特朗普向外企撂话:雇佣、培训美国工人

观察者网 浏览 359 09-09

官方公布雀巢巴黎水丑闻调查:欺诈消费者

新京报 浏览 2515 05-21

六台:卡多佐转会费为3000万欧,贝蒂斯保留15%转售分成

懂球帝 浏览 1715 07-17

第20轮传球成功率榜:国安本赛季第7次登顶,三镇泰山进入前三位

直播吧 浏览 477 08-12

速览!假期这些大事影响节后市场

Wind万得 浏览 130 02-24

制裁重启 伊朗军方:已准备好应对任何威胁

极目新闻 浏览 281 09-29

2万亿,3674点,都回来了,后市如何走?

21世纪经济报道 浏览 422 08-14

帕多瓦诺:我为图多尔感到遗憾;让我选新帅绝对是曼奇尼

懂球帝 浏览 257 10-29

暴雨洪流中 一架直升机和它“不失约”的飞行

新京报 浏览 1611 07-31
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11