参考指南

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

售28.99...

刚刚，锂电闯...

白宫：10万...

隆戈：米兰与...

泰国军方称已...

看大疆做全景...

印度坠机事件或因副驾驶误操作专家：副驾驶可能拉错操纵杆

泰国女子掉进沥青桶全身卡住，连桶一起送往医院

“小而美”私募半年度榜单揭晓！富延、泓熙、智信融科等夺冠！

媒体人：王奕博为转会愿放弃编制但若未及时获批或将缺席新赛季

一种新型诈骗，正在流行！

演技短板暴露！杨超越资源暴跌，'锦鲤'体质还能撑多久？

暴跌51%！“医美面膜第一股”，业绩暴雷！

业主反映多户顶楼业主违规加盖房屋持续多年无法拆除

小米辟谣，已启动司法程序追责

阿里决定再给高德一次机会

上市公司购买6000万私募产品“爆雷”

MiniMax闫俊杰：AI模型将持续存在多个玩家，未来研发不再是烧钱行业

乌总统泽连斯基：已提名什梅加尔担任新国防部长

拆解潮玩之都东莞的流量密码

被指要求本土企业避免使用英伟达H20芯片外交部回应

电车购置税补贴减半在即，这场兜底之战谁敢不打？

裁判员唐顺齐被传心梗去世足协发文强烈谴责相关谣言

俄乌冲突以来乌内阁最大规模换血乌总统被指加强权力

NBA战报：凯尔特人146-101狂胜奇才取NBA3连胜，德里克-怀特30+7+9

军工血统+全栈华为猛士M817售31.99万元起

日娱大瓜！虎大将军牵涉经济纠纷，而且已婚？

马斯克＂星舰＂在试飞前测试时发生巨大爆炸

撬开大模型黑箱！Anthropic新研究把AI思考过程公开了，隐藏动机发现率涨了4倍

增长遇阻，捷途汽车连续三个月销量下滑？