关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者2025-10-22 00:00:02323人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

印度航空发表坠机声明 坠毁航班号为AI171

北京日报 浏览 4482 06-13

30亿元“炸弹”入场!千问烧钱搅动AI春节红包大战

华夏时报 浏览 274 02-03

世体:坎塞洛、巴尔德和赫拉德-马丁各有特点,首发难以确定

懂球帝 浏览 214 03-03

具俊晔亲手揭幕,大S雕像真容曝光,S妈拥抱雕像哭泣

素素娱乐 浏览 278 02-03

自闭症男孩在大理参加夏令营失联:研学营附近多坟坑

扬子晚报 浏览 644 08-11

阿里巴巴:最新归纳4大业务架构,「1+6+N」汇报方式进入历史

深蓝财经 浏览 527 08-23

从一家超市的开业,看大卖场的终章

新零售财经 浏览 371 10-13

德媒:卖完科曼后监事会只允许埃贝尔租球员,他既惊讶又困惑

直播吧 浏览 512 08-20

助听器到底会不会越戴越聋?

网易健康 浏览 9884 03-06

特斯拉新款Semi电动卡车量产下线 搭载三电机

太平洋汽车 浏览 117 05-01

定位中大型SUV 红旗HS6 PHEV开启盲订

车质网 浏览 294 11-03

新款凯迪拉克XT4即将登场,配置升级能否提振销量?

爱驾天下 浏览 554 05-24

画面公布!以军指控哈马斯在加沙医院地下修地道

看看新闻Knews 浏览 1389 06-09

因行李超重问题起争执 一印度军官被指打伤多名印度航司员工

环球网资讯 浏览 8390 08-04

雷军被人堵在车里维权?小米高管回应

电动知家 浏览 146 04-20

中美斯德哥尔摩会谈声明:再次暂停实施24%的关税90天

新华社 浏览 9334 08-12

Fermín Soneira接棒兰博基尼CTO 7月1日正式上任

网易汽车 浏览 128 05-08

特朗普政府再借美联储总部翻修“攻击”:白宫指鲍威尔“严重管理不善”

华尔街见闻官方 浏览 2668 07-11

李亚鹏称体检后疑似患癌 忙着处理医院欠租没时间恐慌

上观新闻 浏览 287 01-20

女子单手骑电动车摔倒 相隔数米的对向来车被认定次责

红星新闻 浏览 7736 08-11

巴基斯坦夜袭阿富汗边境地区 打死至少70名武装人员

新华社 浏览 368 10-19
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11