关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者2025-10-22 00:00:02322人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

媒体人:王奕博为转会愿放弃编制 但若未及时获批或将缺席新赛季

直播吧 浏览 1352 08-12

一种新型诈骗,正在流行!

智谷趋势 浏览 7587 07-30

演技短板暴露!杨超越资源暴跌,'锦鲤'体质还能撑多久?

Yuki女人故事 浏览 3108 07-26

暴跌51%!“医美面膜第一股”,业绩暴雷!

侃见财经 浏览 532 08-25

业主反映多户顶楼业主违规加盖房屋 持续多年无法拆除

红星新闻 浏览 296 01-12

小米辟谣,已启动司法程序追责

上观新闻 浏览 9087 08-09

阿里决定再给高德一次机会

功夫财经 浏览 473 09-11

上市公司购买6000万私募产品“爆雷”

诗与星空 浏览 277 01-06

MiniMax闫俊杰:AI模型将持续存在多个玩家,未来研发不再是烧钱行业

澎湃新闻 浏览 4520 07-27

乌总统泽连斯基:已提名什梅加尔担任新国防部长

环球网资讯 浏览 4704 07-17

拆解潮玩之都东莞的流量密码

21世纪经济报道 浏览 6412 08-10

被指要求本土企业避免使用英伟达H20芯片 外交部回应

界面新闻 浏览 1938 08-14

电车购置税补贴减半在即,这场兜底之战谁敢不打?

汽车公社 浏览 308 10-29

裁判员唐顺齐被传心梗去世 足协发文强烈谴责相关谣言

新京报 浏览 463 09-09

俄乌冲突以来乌内阁最大规模换血 乌总统被指加强权力

澎湃新闻 浏览 7557 07-23

NBA战报:凯尔特人146-101狂胜奇才取NBA3连胜,德里克-怀特30+7+9

懂球帝 浏览 283 12-05

军工血统+全栈华为 猛士M817售31.99万元起

网易汽车 浏览 498 08-19

日娱大瓜!虎大将军牵涉经济纠纷,而且已婚?

浅色夏么 浏览 417 09-22

马斯克"星舰"在试飞前测试时发生巨大爆炸

财联社 浏览 9976 06-20

撬开大模型黑箱!Anthropic新研究把AI思考过程公开了,隐藏动机发现率涨了4倍

智东西 浏览 150 05-09

增长遇阻,捷途汽车连续三个月销量下滑?

车秀小咖 浏览 142 04-20
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11