关闭广告

大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO

机器之心Pro2025-08-13 12:00:01538人阅读



本文主要作者:赵毓钟,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为多模态学习、语言模型后训练。刘悦,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为视觉表征模型。

指导老师:万方,中国科学院大学计算机学院副教授,博导。叶齐祥,中国科学院大学电子学院教授,博导。 崔磊,微软亚洲研究院通用人工智能组(GenAI)首席研究经理。韦福如,微软亚洲研究院通用人工智能组(GenAI)杰出科学家。

近年来,强化学习(RL)在大型语言模型(LLM)的微调过程中,尤其是在推理能力提升方面,取得了显著的成效。传统的强化学习方法,如近端策略优化(Proximal Policy Optimization,PPO)及其变种,包括组相对策略优化(Group Relative Policy Optimization,GRPO),在处理复杂推理任务时表现出了强大的潜力。然而,尽管它们在许多场景下都表现良好,仍然面临着在训练过程中不稳定的问题,尤其是在处理带有极端重要性加权奖励时。几何平均策略优化(Geometric-Mean Policy Optimization,GMPO),作为

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

闭店率超20%!煌上煌半年减少762家店

国际金融报 浏览 5370 08-09

石破天惊,米利唐远射世界波的预期进球只有0.02!

直播吧 浏览 334 09-21

蔚来第80万台量产车下线 乐道L90将于7月底上市即交付

网易汽车 浏览 881 07-28

支气管热成形术术前准备

网易健康 浏览 10196 02-26

卖房炒股后,韩国股市快翻倍了

大猫财经Pro 浏览 296 01-09

美因茨4-1大胜奥格斯堡,席布建功,内贝尔破门

懂球帝 浏览 432 09-21

搭载闪充技术 比亚迪2026款海狮06EV售价15.99万元起

网易汽车 浏览 211 03-10

女子乘二等座买到"单人座":空间较宽敞 旁边能放行李

极目新闻 浏览 276 01-27

一家6口迪拜旅游被滞留 3个老人患病降压药得掰一半吃

大象新闻 浏览 268 03-03

美将所谓"不公正"拘押美国人国家列入黑名单 中方回应

外交部网站 浏览 530 09-09

致敬!1945不是空车而是满载英烈

央视新闻 浏览 298 09-04

卫星图显示:13架俄大型机遭摧毁 包括8架图95

观察者网 浏览 6270 06-04

阿里主动加码外卖大战,谁能笑到最后?

陆玖商业评论 浏览 266 01-09

众星悼念阿玛尼遭审判!网友感叹真现实,不祭奠先烈急着祭奠金主

萌神木木 浏览 346 09-06

什么情况蓉城vs河南赛后看台冲突,球迷扔水瓶砸中河南队人员

直播吧 浏览 526 08-20

西方媒体热炒中印关系"回暖" 臆测所谓"反美联盟"

环球网资讯 浏览 630 08-29

售30.98万起 新款享界S9/S9T亮相广州车展

网易汽车 浏览 327 11-27

暑期档将再迎高潮!《南京照相馆》逆势突围,《731》却上映成谜

电和影 浏览 9498 07-25

中国选手单杆147排行榜:丁俊晖7次居首,傅家俊、张安达排二三位

直播吧 浏览 4001 07-30

集成双4K摄像头与AI,雷蛇Project Motoko概念耳机亮相CES 2026

IT之家 浏览 281 01-07

‌香港夺冠内地票房仅120万 观众给张家辉上一课

靠谱电影君 浏览 518 08-24
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11