参考指南

本文主要作者：赵毓钟，中国科学院大学在读博士，微软亚洲研究院 MSRA 实习生，主要研究方向为多模态学习、语言模型后训练。刘悦，中国科学院大学在读博士，微软亚洲研究院 MSRA 实习生，主要研究方向为视觉表征模型。

指导老师：万方，中国科学院大学计算机学院副教授，博导。叶齐祥，中国科学院大学电子学院教授，博导。崔磊，微软亚洲研究院通用人工智能组（GenAI）首席研究经理。韦福如，微软亚洲研究院通用人工智能组（GenAI）杰出科学家。

近年来，强化学习（RL）在大型语言模型（LLM）的微调过程中，尤其是在推理能力提升方面，取得了显著的成效。传统的强化学习方法，如近端策略优化（Proximal Policy Optimization，PPO）及其变种，包括组相对策略优化（Group Relative Policy Optimization，GRPO），在处理复杂推理任务时表现出了强大的潜力。然而，尽管它们在许多场景下都表现良好，仍然面临着在训练过程中不稳定的问题，尤其是在处理带有极端重要性加权奖励时。几何平均策略优化（Geometric-Mean Policy Optimization，GMPO），作为

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

网友质疑小米...

全新设计语言...

高市称若台湾...

凸显越野属性...

印巴局势升级...

闫安谈王楚钦...

王霜出任“汉超”汉阳队助教，其表哥曹国栋担任主帅

好久没跟大家线下见面啦，快来找我玩

牛市信号？“通缩交易”代表杠铃策略首度被质疑

巴铁邀请中方分享胜利果实一起拆印度导弹印度＂破防＂

河床官方：阿根廷国脚后卫佩泽拉ACL断裂：据悉将伤缺7-8个月

王思聪因无缝衔接女友被网友称为“人生赢家”？

道指重挫800点，IBM跌超13%，白银期货涨超7%，加密货币超16万人爆仓

把Nano Banana设计图送进工厂车间，造好物用了三步

中国移动成出海“赋能者”，聚星计划覆盖5000+伙伴

男子吐槽一家医院＂收费贵＂遭起诉被判＂道歉并赔偿＂

CNN：特朗普似乎已经缓和了对中国的对抗态度

马英九：台湾民众渴望两岸 “和”与“合”

方永飞怼雷军，“行业不敢说的话全被他讲透了”

特朗普承诺会＂夺回首都＂：将把全部流浪汉赶出华盛顿

月亮姐姐戳穿沙溢和胡可婚姻的真相

新规在路上！基金销售要“变天”？

库克继续押宝印度制造一手在印度扩产一手安抚特朗普

特朗普发布一张个人黑白照片并自诩为“关税之王”

限时7.98万起新款秦L DM-i/秦PLUS DM-i长续航上市

＂特普会＂太多罕见细节披露俄方官员对成果守口如瓶

中方回应是否放松稀土出口管制

小城大事：郑德诚风波解除，李秋萍为空降镇长

俄国防部高官住所搜出5亿卢布财产被要求充公

2026春夏八大流行趋势