关闭广告

大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO

机器之心Pro2025-08-13 12:00:01535人阅读



本文主要作者:赵毓钟,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为多模态学习、语言模型后训练。刘悦,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为视觉表征模型。

指导老师:万方,中国科学院大学计算机学院副教授,博导。叶齐祥,中国科学院大学电子学院教授,博导。 崔磊,微软亚洲研究院通用人工智能组(GenAI)首席研究经理。韦福如,微软亚洲研究院通用人工智能组(GenAI)杰出科学家。

近年来,强化学习(RL)在大型语言模型(LLM)的微调过程中,尤其是在推理能力提升方面,取得了显著的成效。传统的强化学习方法,如近端策略优化(Proximal Policy Optimization,PPO)及其变种,包括组相对策略优化(Group Relative Policy Optimization,GRPO),在处理复杂推理任务时表现出了强大的潜力。然而,尽管它们在许多场景下都表现良好,仍然面临着在训练过程中不稳定的问题,尤其是在处理带有极端重要性加权奖励时。几何平均策略优化(Geometric-Mean Policy Optimization,GMPO),作为

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

重回世界第2!斯瓦泰克横扫鲍里妮,首夺辛辛那提冠军+生涯第24冠

全景体育V 浏览 442 08-19

记者:卢克曼离队的做法过于极端,国米应充分考虑后再签下他

懂球帝 浏览 2052 08-10

白血病少年考上985大学退还58万善款:要勤工俭学还债

极目新闻 浏览 530 09-20

马思纯因戏得抑郁症?林志玲满眼心疼

快乐娱文 浏览 3681 07-29

特朗普就伊朗问题表态 伊朗:不会轻易相信美国

上游新闻 浏览 308 02-04

泰晤士:诺丁汉森林已与麦卡蒂谈妥个人条款,转会费将超2000万镑

直播吧 浏览 3416 08-12

男子打妻子后发生关系被告强奸案将开庭 男方姐姐发声

潇湘晨报 浏览 2122 08-11

萨利巴:我们都知道哲凯赖什有多出色;目标是英超冠军

懂球帝 浏览 3244 07-29

黄奕回应女儿被抵制:支持她勇敢面对

丁铗惊悚影视解说 浏览 950 08-13

"斩首警告"后高市早苗骑虎难下 日本网民却集体破防

北回归线 浏览 304 11-12

高市早苗被喊话:向中国道歉并且辞职

环球时报新闻 浏览 307 11-17

长城魏牌汽车,到底被谁“逼急”了?丨正经深度

正经社 浏览 303 01-12

理想汽车启动门店合伙人计划:曝一线门店将参与分红

汽车服务世界 浏览 232 03-02

彭文生:重新理解公共债务与现代经济增长——《全球公共债务》序

首席经济学家论坛 浏览 4206 08-09

阿里第一代程序员退隐江湖 核心管理层年轻化

财联社 浏览 6025 08-13

澳海滩枪击惊魂50分钟:枪手占据天桥向下扫射

澎湃新闻 浏览 271 12-15

陌生人上门讨说法 18岁女孩独自在家起冲突被认定互殴

大风新闻 浏览 299 12-24

张国荣跳楼前1小时究竟发生了什么?

阿废冷眼观察所 浏览 410 09-09

欧盟称TikTok将欧洲用户数据转存中国服务器 中方回应

外交部网站 浏览 4974 07-12

花粉四大喜:提名三大奖,收视拿年冠,大饼吃到饱,姐姐不恋爱

仙女事件簿 浏览 56 05-28

差点撞上B-52轰炸机美客机飞行员超常规避险 乘客发声

红星新闻 浏览 8073 07-22
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11