关闭广告

大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO

机器之心Pro2025-08-13 12:00:01289人阅读



本文主要作者:赵毓钟,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为多模态学习、语言模型后训练。刘悦,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为视觉表征模型。

指导老师:万方,中国科学院大学计算机学院副教授,博导。叶齐祥,中国科学院大学电子学院教授,博导。 崔磊,微软亚洲研究院通用人工智能组(GenAI)首席研究经理。韦福如,微软亚洲研究院通用人工智能组(GenAI)杰出科学家。

近年来,强化学习(RL)在大型语言模型(LLM)的微调过程中,尤其是在推理能力提升方面,取得了显著的成效。传统的强化学习方法,如近端策略优化(Proximal Policy Optimization,PPO)及其变种,包括组相对策略优化(Group Relative Policy Optimization,GRPO),在处理复杂推理任务时表现出了强大的潜力。然而,尽管它们在许多场景下都表现良好,仍然面临着在训练过程中不稳定的问题,尤其是在处理带有极端重要性加权奖励时。几何平均策略优化(Geometric-Mean Policy Optimization,GMPO),作为

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

篮协官宣:同意杨瀚森不参加男篮亚洲杯 将参加8月开拓者短训营

醉卧浮生 浏览 4092 07-25

用AI帮用户管健康、帮医生减负提效,蚂蚁健康应用AQ获WAIC两大重磅奖项

澎湃新闻 浏览 9360 07-26

意天空:亚特兰大不会为卢克曼降价,仍要求5000万欧

懂球帝 浏览 6025 07-30

美国副总统万斯:乌克兰安全保障主要应由欧洲承担

界面新闻 浏览 223 08-22

「“NESTA六维电安全”技术验证」小米YU7

海外网 浏览 9807 07-21

万科A半年报:销售回款率超100%,存量盘活产能近百亿

时代周报 浏览 222 08-23

业务调整、AI广泛应用,印度IT业“无声裁员”冲击数万岗位

环球网资讯 浏览 98 10-13

女子例假结束去游泳大出血向场馆索赔 涉事游泳馆回应

红星新闻 浏览 6767 08-07

世界乒坛现役十大美女,国乒占三,谁是第一美?

南宗历史 浏览 42852 08-28

马克龙当特朗普的面表态:解散哈马斯“行不通”

环球网资讯 浏览 165 09-25

大洗牌!许多老板还在硬撑!

米筐投资 浏览 1017 07-31

匈牙利总理:欧洲已输掉俄乌冲突 却不敢承认

鲁中晨报 浏览 4849 07-14

福建一村捅"博士窝"出33名博士 今年再添61名优秀学子

潇湘晨报 浏览 10356 08-22

全红婵夺金 新搭档身份不简单 赛后发文信息量大

白面书誏 浏览 63 11-04

银行新规出炉:单笔存取超5万,不再问来源或用途

密探财经 浏览 8371 08-12

二季度净利润骤减70%!口子窖,陷入转型阵痛期

侃见财经 浏览 260 08-28

透视全球车企财报:为何中国车企活得更稳?

小号撩车 浏览 258 05-09

突然宣布!知名浏览器终止中国账户服务

中国基金报 浏览 4963 07-31

AI观察|既能“炫技”又会干活的人形机器人,为何还是不能让买家痛快下单?

澎湃新闻 浏览 5714 07-31

红魔球迷吐槽塞斯科红色吉普车:希望他球踢得比选车的品味好

直播吧 浏览 286 08-11

演唱会偷情事件男主起诉酷玩乐队:丢了工作生活被毁

南昌晚报 浏览 2373 07-30
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11