关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者2025-10-22 00:00:02320人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

吉利银河V900预售31.98万起 规模效应能否护航?

网易汽车 浏览 272 01-08

4000 架无人机闪耀长江夜空

极目新闻 浏览 420 09-12

“食安AI博士”智能体首秀进博会!

文汇报 浏览 336 11-03

朱孝天回应阿信感谢,自曝没再收到邀约

萌神木木 浏览 187 12-24

到了夏天,中年女人穿过膝裙不配运动鞋,才能美得优雅又得体

静儿时尚达人 浏览 3078 06-26

阿隆索:西超杯没那么重要

体坛周报 浏览 319 01-13

釜山电影节红毯来了!孙艺珍一身粉裙像睡衣,Lisa礼服又透又贴身

萌神木木 浏览 412 09-18

石家庄一景区多人拿表格围观考核环卫工 涉事公司回应

新京报 浏览 520 08-15

吉利汽车2025年全年累计销量超302万辆

网易汽车 浏览 297 01-03

全球首个峰值速度达10m/s的全尺寸人形机器人Bolt发布

IT之家 浏览 270 02-03

国产无人机,反向制裁全世界,让多少国家又爱又恨

快刀财经 浏览 9938 08-14

美执法人员突袭抓捕大批韩国人包括工程师 特朗普发声

每日经济新闻 浏览 513 09-07

大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO

机器之心Pro 浏览 535 08-13

千亿自助餐市场,正在跑出第一家IPO

餐饮老板内参 浏览 275 01-19

俄罗斯:西方派往乌克兰的士兵都是"合法打击目标"

看看新闻Knews 浏览 240 01-12

E句话 | 泳衣不能下水游泳,啊?

仙女事件簿 浏览 3201 07-14

智谱开源千亿参数视觉大模型,能区分麦当劳肯德基炸鸡

智东西 浏览 5242 08-12

百亿龙头股董事长获刑,已上诉!IPO关键期行贿官员,过程曝光

深蓝财经 浏览 278 11-11

争议!库里中国行女球迷光脚欲冲进场 遭安保人员一把抱住拦截

醉卧浮生 浏览 563 08-19

房东们,惨了

越女事务所 浏览 496 08-12

上海夫妻为买房假离婚未复婚 女方起诉分财产法院判了

极目新闻 浏览 470 09-05
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11