关闭广告

大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO

机器之心Pro2025-08-13 12:00:01291人阅读



本文主要作者:赵毓钟,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为多模态学习、语言模型后训练。刘悦,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为视觉表征模型。

指导老师:万方,中国科学院大学计算机学院副教授,博导。叶齐祥,中国科学院大学电子学院教授,博导。 崔磊,微软亚洲研究院通用人工智能组(GenAI)首席研究经理。韦福如,微软亚洲研究院通用人工智能组(GenAI)杰出科学家。

近年来,强化学习(RL)在大型语言模型(LLM)的微调过程中,尤其是在推理能力提升方面,取得了显著的成效。传统的强化学习方法,如近端策略优化(Proximal Policy Optimization,PPO)及其变种,包括组相对策略优化(Group Relative Policy Optimization,GRPO),在处理复杂推理任务时表现出了强大的潜力。然而,尽管它们在许多场景下都表现良好,仍然面临着在训练过程中不稳定的问题,尤其是在处理带有极端重要性加权奖励时。几何平均策略优化(Geometric-Mean Policy Optimization,GMPO),作为

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

记者:森林仍在推进签下曼城中场麦卡蒂的交易

懂球帝 浏览 2174 07-29

佩通坦含泪谴责柬方:军方做好准备 当前不是谈判阶段

新京报 浏览 5562 07-25

下半年已诞生两只翻倍基!多名基金经理“半路上车”

券商中国 浏览 174 09-22

德约科维奇:想看到第三人挑战辛纳&阿卡,我曾扮演第三人的角色

直播吧 浏览 246 08-23

推广||害怕停产的单品又多了一个!夏天有它出门才不愁

黎贝卡的异想世界 浏览 7110 06-12

SHEIN新加坡公司财务真相调查:去年增收不增利,过去3年纳税约4亿美元

红星资本局 浏览 94 10-20

泽连斯基时隔半年再次造访白宫 这回穿正装了

每日经济新闻 浏览 307 08-19

李国庆婚礼收到111笔善款 受助学生手工制作礼物感谢

扬子晚报 浏览 320 08-23

汪峰也来卖课!299元声乐课销量惨淡,网友调侃不如教如何找女友

萌神木木 浏览 2781 07-18

夏天穿衣千万别太随意!上衣修身、搭配和谐,舒适得体又耐看

静儿时尚达人 浏览 303 08-11

林诗栋/蒯曼3-0战胜林钟勋/申裕斌,夺得WTT美国大满贯混双冠军

懂球帝 浏览 4076 07-13

高市早苗:希望尽早见到特朗普

中国青年报 浏览 17 12-12

继被曝出轨,央视换脸后,高亚麟再曝丑闻,法院出手强制执行

桑启红原 浏览 5008 08-13

硅谷聚会|与Genspark、Lovart、Simular 和SambaNova一起,聊聊AI Agent正在如何改变世界

硅星人 浏览 5798 07-14

中美印三角关系下的博弈:孟加拉国的暗流涌动

浏览 4299 07-14

"老人护孙砍伤醉汉"案当事人申请国赔 法院贴澄清通告

大风新闻 浏览 7925 07-09

中国大使为印度仗义执言 印媒:不同寻常

澎湃新闻 浏览 259 08-23

大桥垮塌司机悬空获救 救援队:我们救灾顺路把他救了

大风新闻 浏览 7346 06-25

回应质疑,爱康国宾张黎刚称“别指望几百块的体检查出所有病”

尺度财经 浏览 1907 07-31

古巴外交部谴责美国蓄意制造借口对委内瑞拉动武

上观新闻 浏览 105 10-04

为期3天,2025世界人形机器人运动会开启足球预选赛

贝壳财经 浏览 8565 08-12
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11