关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者2025-10-22 00:00:02227人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

但斌91亿元美股持仓出炉:大幅加仓谷歌至第一重仓股,英伟达退居次席

澎湃新闻 浏览 183 01-29

荷兰限制与美国情报共享:我们的情报被政治化了

澎湃新闻 浏览 274 10-22

美联储“独立性”面临挑战,华尔街想确定“是敌是友”,美联储新主席提名引发市场猜测

环球网资讯 浏览 178 02-02

美业数字化再添新助力 成都美博会AI美业工具受追捧丨新经济观察

封面新闻 浏览 310 10-23

特朗普援乌 或首次动用 “总统特别拨款权”

澎湃新闻 浏览 1594 07-12

181亿医疗信息化龙头掌舵人周炜,行贿一审被判后辞去董事长

雷达财经 浏览 214 11-10

媒体:日本出口护卫舰 不能和中国出口武器混为一谈

新民周刊 浏览 51 04-22

郭晶晶就个人发展问题最新发声

新民周刊 浏览 265 10-18

洋河股份第三季度营收为32.95亿元,同比下降29.01%

红星资本局 浏览 248 10-31

卡萨诺:托蒂是意大利史上最强10号,他的天赋不如巴乔但更加全面

直播吧 浏览 10185 07-13

前安永合伙人,因酒吧斗殴被解雇,早前涉嫌勾引已婚女合伙人被警告

财通社 浏览 222 11-03

影后秦海璐,与二婚丈夫生下一子,如今过的怎样

小小李娱 浏览 233 11-05

护龈工具大PK,冠军会花落谁家?

网易健康 浏览 4364 03-21

足总杯首发出战,塞门约迎来代表曼城的首场比赛

懂球帝 浏览 201 01-11

假期4大变量共振 哪些是A股正向催化剂?

财联社 浏览 129 02-24

刘强东又拿下理想,京东汽车靠谱吗?

正在说车 浏览 191 12-28

高瑞东:“反内卷”效果初现

首席经济学家论坛 浏览 4022 08-11

于正力捧黑红十年,白鹿《临江仙》爆火后停摆,累了还是另有隐情

娱乐白名单 浏览 10252 08-11

‌耗资18亿,北美夺冠的大片,中国观众不买账,2天票房仅3550万

靠谱电影君 浏览 8292 07-13

2025国产公交车1-11月出口:宇通6512辆,比亚迪第2,厦门金龙第6

小鹏财经 浏览 183 01-05

特斯拉涉嫌虚假宣传驾驶辅助,或被禁售30天

汽车公社 浏览 171 12-22
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11