关闭广告

大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO

机器之心Pro2025-08-13 12:00:01454人阅读



本文主要作者:赵毓钟,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为多模态学习、语言模型后训练。刘悦,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为视觉表征模型。

指导老师:万方,中国科学院大学计算机学院副教授,博导。叶齐祥,中国科学院大学电子学院教授,博导。 崔磊,微软亚洲研究院通用人工智能组(GenAI)首席研究经理。韦福如,微软亚洲研究院通用人工智能组(GenAI)杰出科学家。

近年来,强化学习(RL)在大型语言模型(LLM)的微调过程中,尤其是在推理能力提升方面,取得了显著的成效。传统的强化学习方法,如近端策略优化(Proximal Policy Optimization,PPO)及其变种,包括组相对策略优化(Group Relative Policy Optimization,GRPO),在处理复杂推理任务时表现出了强大的潜力。然而,尽管它们在许多场景下都表现良好,仍然面临着在训练过程中不稳定的问题,尤其是在处理带有极端重要性加权奖励时。几何平均策略优化(Geometric-Mean Policy Optimization,GMPO),作为

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

拜仁薪资排名:迪亚斯加盟后1400万欧位列第7,高于奥利塞

直播吧 浏览 7488 07-28

女人过了40岁就该这样穿衣搭配!不夸张、不沉闷,简约又舒适

静儿时尚达人 浏览 6581 07-05

榕江一餐馆灾后开业县领导成首批客人 老板:书记买单

上游新闻 浏览 1482 07-18

发改委:综合整治无序非理性竞争

新华社 浏览 374 09-11

罗伯特-桑切斯赛后采访:没人想到能3-0赢球,我们会越来越好

直播吧 浏览 868 07-15

美关税持续冲击,日本7月出口创四年多最大跌幅

国际金融报 浏览 450 08-21

603825,突发利空,将被ST!下周31股面临解禁

数据宝 浏览 409 08-23

“月薪2万元吃不起”?百果园董事长回应水果太贵

第一财经资讯 浏览 7250 08-10

记者:枪手本周正式接触水晶宫,了解能否不激活埃泽解约条款

懂球帝 浏览 3046 07-15

外媒:以军空袭伊朗核设施及军事目标

界面新闻 浏览 8025 06-13

智元拿下千万级订单,近百台机器人“上岗”汽车工厂

澎湃新闻 浏览 438 08-11

成本上升、缺芯、亚洲销量下滑,本田汽车全年利润预期下调 21%

IT之家 浏览 245 11-09

高考数学满分的他,说要成为1/3个邓肯

后厂村体工队 浏览 5035 07-14

AMD将重启对华AI芯片出口,特朗普政策变了?

第一财经资讯 浏览 4023 07-16

浙大哲学学院公布新进教师 两位"95后"跻身博导引关注

澎湃新闻 浏览 5899 08-14

新款奥迪Q5L实车曝光,轴距增加,黑科技加持

大李说车 浏览 5293 06-26

大胜爱沙尼亚!土耳其主帅:我们充分发挥了申京在篮下的作用

直播吧 浏览 391 09-02

"特泽会"细节:白宫摆出一张地图

环球时报新闻 浏览 424 08-20

仅3年,通用进口车平台道朗格重组,意味着什么?

郑谊 浏览 474 05-17

日企从中国进口稀土被要求提供经销商信息 中方回应

财联社 浏览 204 01-23

美交通部长成NASA临时局长:政治生涯充满戏剧性

环球网资讯 浏览 4609 07-11
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11