关闭广告

大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO

机器之心Pro2025-08-13 12:00:01452人阅读



本文主要作者:赵毓钟,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为多模态学习、语言模型后训练。刘悦,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为视觉表征模型。

指导老师:万方,中国科学院大学计算机学院副教授,博导。叶齐祥,中国科学院大学电子学院教授,博导。 崔磊,微软亚洲研究院通用人工智能组(GenAI)首席研究经理。韦福如,微软亚洲研究院通用人工智能组(GenAI)杰出科学家。

近年来,强化学习(RL)在大型语言模型(LLM)的微调过程中,尤其是在推理能力提升方面,取得了显著的成效。传统的强化学习方法,如近端策略优化(Proximal Policy Optimization,PPO)及其变种,包括组相对策略优化(Group Relative Policy Optimization,GRPO),在处理复杂推理任务时表现出了强大的潜力。然而,尽管它们在许多场景下都表现良好,仍然面临着在训练过程中不稳定的问题,尤其是在处理带有极端重要性加权奖励时。几何平均策略优化(Geometric-Mean Policy Optimization,GMPO),作为

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

Manus最新爆料:公司收入运行率达9000万美元

网易科技报道 浏览 380 08-20

嫁法国老头真相大白5个月后,41岁李宇春近况曝出

华史谈 浏览 214 12-16

技术革新驱动绿色出行,DF蓄电池常德旗舰店盛大开业

环球网资讯 浏览 5478 07-21

李在明执政50天,韩国经济变好了吗?

时代周报 浏览 3765 07-24

联合国对达成加沙地带停火协议表示欢迎

极目新闻 浏览 284 10-09

美军宣布再次打击"贩毒船" 致4人死亡

环球网资讯 浏览 224 10-31

杭州高架理想MEGA起火,车主:理想救我一命 高管:感谢认可事故正了解中

红星资本局 浏览 704 08-07

库克继续押宝印度制造 一手在印度扩产一手安抚特朗普

时代周报 浏览 497 08-22

“5C超充+800V”只卖14万?新阿尔法T5亮相成都车展,人气依旧爆棚

封面新闻 浏览 364 09-08

娃哈哈被指将换标"娃小宗" 官网公布对外总机已成空号

极目新闻 浏览 399 09-26

这「禁欲」男神天花板,太顶了

独立鱼 浏览 360 08-19

两名落马官员同名还是亲兄弟 哥哥被指顶替弟弟上大学

红星新闻 浏览 516 08-22

NBA战报:凯尔特人115-101公牛取NBA4连胜,安芬尼-西蒙斯27+3+3

懂球帝 浏览 185 01-06

印媒:莫迪将于8月31日至9月1日访华

环球网资讯 浏览 3768 08-07

青创人才说 | 柒色莲生物汪会兵:当好iPSC细胞疗域“铺路人”

上观新闻 浏览 174 12-05

"90后"王兴兴:小学时想当科学家 同学一句话启发了我

中国新闻周刊 浏览 258 11-05

“怎么果里果气的?” 荣耀,还缺一个爆款

北京商报 浏览 1551 07-16

本科生因"逆天学术履历"引争议 学校回应:正在核查中

封面新闻 浏览 1062 07-16

新美联储通讯社:美联储暗示暂停降息行动,新债王:今天或是鲍威尔任内最后一次

华尔街见闻官方 浏览 196 12-11

零件细节曝光 新款奔驰S级将于2026年推出

车质网 浏览 149 11-26

欧豪:16岁送外卖,21岁遇到贵人谢霆锋

韩驰 浏览 189 01-05
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11