关闭广告

大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO

机器之心Pro2025-08-13 12:00:01449人阅读



本文主要作者:赵毓钟,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为多模态学习、语言模型后训练。刘悦,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为视觉表征模型。

指导老师:万方,中国科学院大学计算机学院副教授,博导。叶齐祥,中国科学院大学电子学院教授,博导。 崔磊,微软亚洲研究院通用人工智能组(GenAI)首席研究经理。韦福如,微软亚洲研究院通用人工智能组(GenAI)杰出科学家。

近年来,强化学习(RL)在大型语言模型(LLM)的微调过程中,尤其是在推理能力提升方面,取得了显著的成效。传统的强化学习方法,如近端策略优化(Proximal Policy Optimization,PPO)及其变种,包括组相对策略优化(Group Relative Policy Optimization,GRPO),在处理复杂推理任务时表现出了强大的潜力。然而,尽管它们在许多场景下都表现良好,仍然面临着在训练过程中不稳定的问题,尤其是在处理带有极端重要性加权奖励时。几何平均策略优化(Geometric-Mean Policy Optimization,GMPO),作为

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

国内成品油:7月1日或每吨上调600元

和讯网 浏览 6710 06-30

岛内作家:郑丽文出身民进党清楚"手法" 对方压力很大

海峡导报社 浏览 275 10-20

阿里联合上海交大:一个训练样本就能让AI变"学霸"的惊人发现

科技行者 浏览 199 01-13

联大反击或剥夺美国重要资格 美恐难再与中同台论道

策略述 浏览 216 01-11

2026年必追的四部谍战剧 陈道明、于和伟领衔主演

娱乐圈笔娱君 浏览 185 01-23

罗马诺&泰晤士:利物浦签格伊遇到阻碍,水晶宫租伊戈尔交易告吹

直播吧 浏览 409 09-02

巴萨官方:巴勃罗-托雷获准未参加季前体检,在等待确定未来

懂球帝 浏览 7407 07-14

张维伊换了新造型大变样,有点当红明星的派头了

萱小蕾o 浏览 358 09-11

在他眼里又要走一个?帕金斯:若76人无法回到正轨马克西就会离队

直播吧 浏览 3974 07-18

OpenAI领衔!AI热潮下美国“七大科技初创”总估值达1.3万亿美元

财联社 浏览 324 09-21

B费:大多数巴西人都很开朗,库尼亚很快就和大家打成一片了

懂球帝 浏览 5525 07-27

同意吗?蒂格谈雷霆队史最佳球员:SGA第一 威少第二 KD第三

直播吧 浏览 399 08-21

霍尔木兹海峡七天通航量创战后之最 首艘法国船只穿行

财联社 浏览 56 04-06

文旅上市潮,进入Next Level

斑马消费 浏览 285 10-16

马伊琍意外翻车,竟险些重蹈朱丹覆辙!

跳跳历史 浏览 5670 07-12

别克至境 L7 外观首发:定位 30 万级豪华轿车,搭载增程动力

IT之家 浏览 2618 07-17

预售22.98万元 长城炮V6火炮于成都车展开启预售

网易汽车 浏览 444 09-01

中证军工龙头指数的“成长密码”

金证研 浏览 408 08-22

AI入侵KTV,赛博大粪包围生活

酷玩实验室 浏览 2639 08-06

北京极端强降雨造成重大灾害 全市因灾死亡30人

北京日报客户端 浏览 9895 07-29

黄多多晒20岁生日照,美国公寓装修高档

揭秘世间万象 浏览 151 02-05
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11