关闭广告

大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO

机器之心Pro2025-08-13 12:00:01539人阅读



本文主要作者:赵毓钟,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为多模态学习、语言模型后训练。刘悦,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为视觉表征模型。

指导老师:万方,中国科学院大学计算机学院副教授,博导。叶齐祥,中国科学院大学电子学院教授,博导。 崔磊,微软亚洲研究院通用人工智能组(GenAI)首席研究经理。韦福如,微软亚洲研究院通用人工智能组(GenAI)杰出科学家。

近年来,强化学习(RL)在大型语言模型(LLM)的微调过程中,尤其是在推理能力提升方面,取得了显著的成效。传统的强化学习方法,如近端策略优化(Proximal Policy Optimization,PPO)及其变种,包括组相对策略优化(Group Relative Policy Optimization,GRPO),在处理复杂推理任务时表现出了强大的潜力。然而,尽管它们在许多场景下都表现良好,仍然面临着在训练过程中不稳定的问题,尤其是在处理带有极端重要性加权奖励时。几何平均策略优化(Geometric-Mean Policy Optimization,GMPO),作为

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

又一个世界波!姆巴佩禁区外原地摆腿远射破门,5场西甲打进5球

直播吧 浏览 282 09-21

北京男孩在大理苍山走失遇难 被发现时衣服已全部脱光

新京报 浏览 524 08-17

他初出茅庐用一叠草稿纸,成功动摇了物理学百年根基…

中国科普博览 浏览 564 08-23

明星扎堆「回春」,内娱又一个惊天骗局?

独立鱼 浏览 1765 07-08

隆戈:博洛尼亚100万欧租借+700万欧买断报价米兰中场波贝加

直播吧 浏览 681 07-18

特朗普转发针对古巴强硬言论:鲁比奥将成"古巴总统"

环球时报国际 浏览 295 01-13

“纸质书+VR”开启科普新形态 《寻梦天宫:中国空间站建设纪实》在京发布

封面新闻 浏览 273 01-02

44岁女演员孙菲菲官宣离婚 此前曾称自己在剧组遭围殴

极目新闻 浏览 368 09-14

罗体:尤文将和3名球员续约至2030年 伊尔迪兹年收入可达400万欧

直播吧 浏览 1263 07-12

美国纽约州一旅游大巴翻车 5人死亡数十人受伤

财联社 浏览 525 08-23

松延动力宣布已完成数亿元A++轮融资

网易科技报道 浏览 7710 08-07

杨采钰当妈后首个生日,富豪老公高调晒照表白

柒佰娱 浏览 403 09-29

一周AI大事:GPT-5不及预期 马斯克解散Dojo团队

网易科技报道 浏览 476 08-11

长安深蓝 S05 汽车将推 620km 超长续航版本

IT之家 浏览 2521 07-25

连上6款新车,上汽大众9月终端销售9.13万辆

文汇报 浏览 298 10-02

失误有点多,哈登15中6&三分7中1取22分8板7助1断2帽7失误

懂球帝 浏览 116 05-06

暑期将至,这份带娃出行健康攻略请收好

网易健康 浏览 8390 07-09

正式回归赛场❗18岁唐天翼今天出战中乙,此前深陷出轨&赌球风波

直播吧 浏览 6724 07-13

“白色阔腿裤”今年夏天又火了!这样穿时髦又高级

LinkFashion 浏览 115 05-07

AI设计出可杀灭细菌的功能性病毒,专家呼吁谨慎推进

IT之家 浏览 411 09-22

今秋要穿这15条裙子!上身绝美,太撩人了!

Yuki女人故事 浏览 415 10-16
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11