关闭广告

大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO

机器之心Pro2025-08-13 12:00:01540人阅读



本文主要作者:赵毓钟,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为多模态学习、语言模型后训练。刘悦,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为视觉表征模型。

指导老师:万方,中国科学院大学计算机学院副教授,博导。叶齐祥,中国科学院大学电子学院教授,博导。 崔磊,微软亚洲研究院通用人工智能组(GenAI)首席研究经理。韦福如,微软亚洲研究院通用人工智能组(GenAI)杰出科学家。

近年来,强化学习(RL)在大型语言模型(LLM)的微调过程中,尤其是在推理能力提升方面,取得了显著的成效。传统的强化学习方法,如近端策略优化(Proximal Policy Optimization,PPO)及其变种,包括组相对策略优化(Group Relative Policy Optimization,GRPO),在处理复杂推理任务时表现出了强大的潜力。然而,尽管它们在许多场景下都表现良好,仍然面临着在训练过程中不稳定的问题,尤其是在处理带有极端重要性加权奖励时。几何平均策略优化(Geometric-Mean Policy Optimization,GMPO),作为

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

巴铁邀请中方分享胜利果实一起拆印度导弹 印度"破防"

空天力量 浏览 3490 07-22

河床官方:阿根廷国脚后卫佩泽拉ACL断裂:据悉将伤缺7-8个月

懂球帝 浏览 550 08-11

王思聪因无缝衔接女友 被网友称为“人生赢家”?

小彭聊社会 浏览 7964 08-07

道指重挫800点,IBM跌超13%,白银期货涨超7%,加密货币超16万人爆仓

21世纪经济报道 浏览 242 02-24

把Nano Banana设计图送进工厂车间,造好物用了三步

脑极体 浏览 457 09-10

中国移动成出海“赋能者”,聚星计划覆盖5000+伙伴

雷科技 浏览 316 10-21

男子吐槽一家医院"收费贵"遭起诉 被判"道歉并赔偿"

封面新闻 浏览 578 09-29

CNN:特朗普似乎已经缓和了对中国的对抗态度

环球网资讯 浏览 7828 07-28

马英九:台湾民众渴望两岸 “和”与“合”

海峡导报社 浏览 7065 06-16

方永飞怼雷军,“行业不敢说的话全被他讲透了”

车轱辘话V 浏览 289 12-20

特朗普承诺会"夺回首都":将把全部流浪汉赶出华盛顿

财联社 浏览 632 08-12

月亮姐姐戳穿沙溢和胡可婚姻的真相

老吴教育课堂 浏览 2946 08-05

新规在路上!基金销售要“变天”?

国际金融报 浏览 283 12-19

库克继续押宝印度制造 一手在印度扩产一手安抚特朗普

时代周报 浏览 626 08-22

特朗普发布一张个人黑白照片 并自诩为“关税之王”

环球时报国际 浏览 311 01-19

限时7.98万起 新款秦L DM-i/秦PLUS DM-i长续航上市

网易汽车 浏览 318 01-10

"特普会"太多罕见细节披露 俄方官员对成果守口如瓶

红星新闻 浏览 459 08-17

中方回应是否放松稀土出口管制

财联社 浏览 323 10-29

小城大事:郑德诚风波解除,李秋萍为空降镇长

少女的烦恼 浏览 294 01-12

俄国防部高官住所搜出5亿卢布财产 被要求充公

红星新闻 浏览 438 08-29

2026春夏八大流行趋势

LinkFashion 浏览 198 01-10
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11