参考指南

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

詹姆斯：NB...

媒体：特朗普...

李湘高调炫富...

她是在官宣恋...

“全香港梦中...

上游观察｜电...

*ST沪科面临退市风险，或还因此前信披问题遭股民索赔

塔帅：欧冠晋级我非常激动，但在那之后我立即转向了西汉姆联

小伙花2万多＂签约寻爱＂却＂竹篮打水＂：见个面就叫约会

林俊杰跟七七又被偶遇了！贴心帮女友提包，曝女方父亲是经济犯

都灵主帅：我很尊重斯帕莱蒂，我们必须带着创造历史的信念比赛

预售45万起腾势N9闪充版还有AI智能座舱

许凯脱饭粉丝爆料！前女友转发硬刚：烂黄瓜

普京：调解乌克兰危机的基础是消除其成因

山东男子结婚22年俩儿子非亲生大儿子首次发声

梁文锋等来及时雨

日产背水一战，全球车企渡劫

神二十乘组身穿“我爱你中国”文化衫为祖国母亲庆生

罗马诺：费内巴切已向巴黎提高了对什克的报价

男子给小35岁情人转1340万妻子：第三者生活极度奢侈

中俄海军8月将举行联合演习专家解读三大亮点

国产飞机C909商业航班成功首飞澳门

林诗栋不敌张本智和，王楚钦将与张本智和争夺美国大满贯冠军

环球：中国实施稀土出口管制美方没必要过度反应

“反对标题党，绝不是反对把标题写得有吸引力”

AMD R5 5500X3D首个Geekbench跑分：单核与5500相似、多核提升13%

外卖大战商家结算：月入16万一算账还亏1万

提升夏日穿搭品位的方法，这3种很加分！

匹克被指大幅降薪员工：发薪日前4天才知道

网传张曼玉加盟《浪姐2026》，工作人员发声回应：不知道此事