关闭广告

大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO

机器之心Pro2025-08-13 12:00:01541人阅读



本文主要作者:赵毓钟,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为多模态学习、语言模型后训练。刘悦,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为视觉表征模型。

指导老师:万方,中国科学院大学计算机学院副教授,博导。叶齐祥,中国科学院大学电子学院教授,博导。 崔磊,微软亚洲研究院通用人工智能组(GenAI)首席研究经理。韦福如,微软亚洲研究院通用人工智能组(GenAI)杰出科学家。

近年来,强化学习(RL)在大型语言模型(LLM)的微调过程中,尤其是在推理能力提升方面,取得了显著的成效。传统的强化学习方法,如近端策略优化(Proximal Policy Optimization,PPO)及其变种,包括组相对策略优化(Group Relative Policy Optimization,GRPO),在处理复杂推理任务时表现出了强大的潜力。然而,尽管它们在许多场景下都表现良好,仍然面临着在训练过程中不稳定的问题,尤其是在处理带有极端重要性加权奖励时。几何平均策略优化(Geometric-Mean Policy Optimization,GMPO),作为

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

英伟达推出机器人最强"大脑" ,宇树科技用上了

网易科技报道 浏览 539 08-26

赵丽颖直播太实诚,被问儿子暖还是羊绒暖,赵丽颖果断选择儿子

扒虾侃娱 浏览 358 10-14

46岁的秦海璐,每月给婆婆钱 说是她的第三个孩子

科学发掘 浏览 460 08-26

布翁焦尔诺谈主场欧冠首秀:听见欧冠主题曲时我感到无比激动

懂球帝 浏览 327 11-08

老汉与女子领证被骗70万 女方获刑10年多宁坐牢不退钱

极目新闻 浏览 2214 07-15

撒贝宁随李白回加拿大探亲,俩人带着龙凤胎闲逛

二妹扯娱 浏览 402 10-18

香奈儿2026高级手工坊|最贴近日常的高级奢华

LinkFashion 浏览 233 12-05

法国宣布正式承认巴勒斯坦国

央视新闻客户端 浏览 386 09-24

置换价17.99万起 奇瑞风云T11正式上市

网易汽车 浏览 327 11-01

黄奕回应女儿被抵制:支持她勇敢面对

丁铗惊悚影视解说 浏览 955 08-13

F1车队积分榜:迈凯伦324分优势领跑,法拉利第二、梅赛德斯第三

直播吧 浏览 368 09-01

好久没跟大家线下见面啦,快来找我玩

黎贝卡的异想世界 浏览 180 12-04

飞象老师爆火背后:AI进课堂,先要过教师这一关

学申论的谈妹 浏览 69 05-28

大学生打游戏猝死 家属:校方15分钟后打电话说他晕倒

大风新闻 浏览 540 09-07

34年来首次 普京下令起草恢复核武器试验提议

红星新闻 浏览 304 11-07

电动车充电别开窗,美国研究揭示电动车快充站的隐藏污染风险

MOTO 浏览 531 08-22

TP-Link 推出旗下首款 Wi-Fi 7 旅行路由器 TL-WR3602BE

IT之家 浏览 7716 08-06

悬空三年终落定!华泰人寿为何选了精算师出任总经理?

独角金融 浏览 3317 07-17

都在等金银开盘!洪灏:坚定看多长期价值,招行:调整继续,但能到6500

金石随笔 浏览 282 02-02

韩国直说了:美国危机感强 要我们联手遏制中国

澎湃新闻 浏览 1964 07-12

全新夜影蓝车色/6月10日亮相 领克01焕新版官图发布

网易汽车 浏览 531 06-06
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11