关闭广告

大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO

机器之心Pro2025-08-13 12:00:01451人阅读



本文主要作者:赵毓钟,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为多模态学习、语言模型后训练。刘悦,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为视觉表征模型。

指导老师:万方,中国科学院大学计算机学院副教授,博导。叶齐祥,中国科学院大学电子学院教授,博导。 崔磊,微软亚洲研究院通用人工智能组(GenAI)首席研究经理。韦福如,微软亚洲研究院通用人工智能组(GenAI)杰出科学家。

近年来,强化学习(RL)在大型语言模型(LLM)的微调过程中,尤其是在推理能力提升方面,取得了显著的成效。传统的强化学习方法,如近端策略优化(Proximal Policy Optimization,PPO)及其变种,包括组相对策略优化(Group Relative Policy Optimization,GRPO),在处理复杂推理任务时表现出了强大的潜力。然而,尽管它们在许多场景下都表现良好,仍然面临着在训练过程中不稳定的问题,尤其是在处理带有极端重要性加权奖励时。几何平均策略优化(Geometric-Mean Policy Optimization,GMPO),作为

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

搭载鸿蒙座舱 猛士M817将于7月17日开启预售

车质网 浏览 772 07-09

上传健身视频后 卡德罗夫再发声:我很健康 正恢复锻炼

红星新闻 浏览 6048 08-08

画面公布!以军指控哈马斯在加沙医院地下修地道

看看新闻Knews 浏览 1336 06-09

NBA加WNBA至少4夺MVP球员:一共6人 乔丹詹姆斯在列 阿贾今日入围

直播吧 浏览 290 09-22

特朗普:我不喜欢,建议将“人工智能”改为“天才智能”

扬子晚报 浏览 1058 07-24

网传 Stellantis 与东风深化合作,拟以岚图/猛士技术开发新车型

IT之家 浏览 318 10-14

电讯报:纽卡重新关注埃基蒂克,他可以和伊萨克轮换上阵

懂球帝 浏览 6536 07-13

任上被查的北京副市长获刑12年 被指骗取博士学历

南方都市报 浏览 397 09-11

辛巴退圈,直播行业的“震中时刻” 他退播了?

陈意小可爱 浏览 507 08-20

中美AI豪赌:一个要“登天”,一个要“落地”

网易科技报道 浏览 383 09-01

上市24小时订单破21856台!50万的档次仅售15万多

隔壁说车老王 浏览 20680 08-23

石破茂辞职后两人有望接任 日本自民党或迎首位女总裁

时代周报 浏览 474 09-08

今年秋天最火的4条裙子,配玛丽珍鞋绝美!

LinkFashion 浏览 265 10-06

7205家途虎“包围县城”

国际金融报 浏览 409 08-25

成本仅为真人1/18!漫威衍生剧用AI重拍女二,太厉害了吧

娱乐白名单 浏览 278 10-13

神舟二十号飞船推迟返回 疑似遭空间微小碎片撞击

极目新闻 浏览 225 11-05

70岁的任达华打脸内娱年轻明星,动作戏这么帅

最爱酷影视 浏览 7652 07-31

男子离婚后发现孩子非亲生还遭大儿子打闹 大儿子发声

扬子晚报 浏览 618 09-11

官方:国米先租后买签下萨索洛21岁右后卫钦奎格拉诺

直播吧 浏览 9186 07-31

中国游客在泰国被树砸倒去世 女儿:特意安排退休旅行

潇湘晨报 浏览 5434 07-23

美军空袭5天后伊核设施附近有人施工 最新卫星图公布

环球网资讯 浏览 10140 06-29
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11