关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者2025-10-22 00:00:02231人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

印度的“真正敌人” 莫迪挑明了

参考消息 浏览 423 09-22

埃弗顿vs富勒姆:格拉利什、皮克福德首发,劳尔-希门尼斯、莱诺出战

懂球帝 浏览 220 11-09

巴黎极端球迷在埃菲尔铁塔前非法燃放大量焰火,约40人被逮捕

懂球帝 浏览 168 12-29

万斯称美国正考虑向乌克兰提供“战斧”导弹

央视新闻客户端 浏览 279 09-29

14天市值暴涨234亿元,7次提示风险!280万粉丝博主的公司出手,拟豪掷21亿元!

深蓝财经 浏览 3428 07-27

星巴克王牌品类茶拿铁系列焕新升级,真茶真奶 真茶拿铁

财经无忌 浏览 431 08-19

三句在低谷中给我力量的话

黎贝卡的异想世界 浏览 284 08-28

理想汽车:i8已开启静态体验,29日发布会后可动态试驾

环球网资讯 浏览 2685 07-26

生涯最后一舞的保罗 一年360万美元重回故地

直播吧 浏览 1646 07-22

刘锋:银行 ESG 信披的估值影响——从合规到价值创造的转型之路

首席经济学家论坛 浏览 2922 08-14

零跑冲击月销6万!蔚来反超理想,小鹏紧追问界,新势力分化加剧

车东西 浏览 414 09-02

巴基斯坦空军发布最新宣传片 歼-10C成绝对主角

看看新闻Knews 浏览 369 09-10

央企重组“百日考”,这样的成绩能打几分?

天天汽车 浏览 282 10-14

疯狂推新,营收大涨27%!小熊电器“翻身”

侃见财经 浏览 275 10-16

普京指挥俄军战略核力量综合演习

环球网资讯 浏览 248 10-23

巴菲特大举买入谷歌,股神为何爱上科技股?

郭施亮 浏览 196 11-17

跨时代的武侠视觉巨制,今晚迎来告别放映!

幕味儿 浏览 193 12-11

这次的迟蓬和沈丹萍还是让倪萍说对了

梦史 浏览 337 09-10

“有病去医院,有事找法院”!王老吉和加多宝又“打起来了”

国际金融报 浏览 325 10-15

小萨博尼斯适合勇士吗? 三大缺点阻碍他加盟

仰卧撑FTUer 浏览 188 12-15

F1阿塞拜疆站:维斯塔潘杆位夺冠 皮亚斯特里撞墙退赛

网易体育 浏览 302 09-22
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11