关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者2025-10-22 00:00:02234人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

探访千年蒙山大佛!蒙克中国行太原站最新动态来袭

直播吧 浏览 8198 07-27

英伟达市值突破4.1万亿美元,美国政府已批准H20的出口申请,黄仁勋:对可以开始向中国发货感到高兴

东方网 浏览 3146 07-16

美对印征50%关税 印度硬刚:防长取消访美 武器不买了

新华社 浏览 8286 08-09

站稳百亿营收,产线满负荷运转,功率半导体IDM龙头士兰微下一个增长极藏在哪?

时代周报 浏览 1876 08-06

置换抢购价9.99万元起 捷途X70L正式上市

网易汽车 浏览 300 09-27

律师责任险“断保”风波:太保的抉择,藏着保险业转型怎样的阵痛?

经理人杂志 浏览 336 09-11

看大疆做全景相机,不要只看两份报告

连线Insight 浏览 221 11-12

王宁又牛了,今年上半年把去年一整年的钱都赚了

节点财经 浏览 3884 07-18

张碧晨:不止版权之争 5位顶流受牵连

一娱三分地 浏览 2220 07-29

中国汽研汽车指数最新批次测评结果权威公开发布

网易汽车 浏览 1213 07-13

伊朗总统车队因加注掺水汽油抛锚 佩泽希齐扬被迫打车

环球网资讯 浏览 3403 07-18

上海一小区楼栋窗外现连片光伏板 居民称眼睛快被晃瞎

上观新闻 浏览 422 09-08

停更4天后,罗永浩微博恢复更新:用预制菜给消费者知情权没那么复杂

三言科技 浏览 294 09-21

申通快递拟收购丹鸟物流,菜鸟自营快递或迎变局

中国商报 浏览 6650 07-28

近距离感受国之重器:第一视角看亚洲首个电磁弹射微重力实验装置

IT之家 浏览 294 10-13

胡塞武装用“混合战术”,掀起“海上游击战”

浏览 7492 07-14

京东外卖:全职骑手已突破15万人

观察者网 浏览 896 07-16

许嵩冯禧被曝秘密结婚!男方家人正筹备婚礼,妈妈曾点赞催婚评论

萌神木木 浏览 5173 08-07

争吵半年后泽连斯基要再赴白宫 德总理:他不会再被羞辱

鲁中晨报 浏览 411 08-18

逼乌克兰割地求和,特朗普背刺欧洲,普京许了他啥好处?

北向财经 浏览 377 08-22

拓记:新赛季克林根是首发中锋&其次罗威 杨瀚森是第三选择

直播吧 浏览 2402 07-21
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11