参考指南

本文主要作者：赵毓钟，中国科学院大学在读博士，微软亚洲研究院 MSRA 实习生，主要研究方向为多模态学习、语言模型后训练。刘悦，中国科学院大学在读博士，微软亚洲研究院 MSRA 实习生，主要研究方向为视觉表征模型。

指导老师：万方，中国科学院大学计算机学院副教授，博导。叶齐祥，中国科学院大学电子学院教授，博导。崔磊，微软亚洲研究院通用人工智能组（GenAI）首席研究经理。韦福如，微软亚洲研究院通用人工智能组（GenAI）杰出科学家。

近年来，强化学习（RL）在大型语言模型（LLM）的微调过程中，尤其是在推理能力提升方面，取得了显著的成效。传统的强化学习方法，如近端策略优化（Proximal Policy Optimization，PPO）及其变种，包括组相对策略优化（Group Relative Policy Optimization，GRPO），在处理复杂推理任务时表现出了强大的潜力。然而，尽管它们在许多场景下都表现良好，仍然面临着在训练过程中不稳定的问题，尤其是在处理带有极端重要性加权奖励时。几何平均策略优化（Geometric-Mean Policy Optimization，GMPO），作为

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

里奇：对阵利...

洪水来袭，在...

莫雷托：克雷...

大相径庭，维...

太阳报：桑托...

连Win10...

杨振宁留给中国的最重要遗产，恰恰很不“中国味”

平台领先配置超全海豹06EV售10.98万起

内外细节调整新款日产奇骏官图发布

Manus最新爆料：公司收入运行率达9000万美元

嫁法国老头真相大白5个月后，41岁李宇春近况曝出

技术革新驱动绿色出行，DF蓄电池常德旗舰店盛大开业

李在明执政50天，韩国经济变好了吗？

联合国对达成加沙地带停火协议表示欢迎

美军宣布再次打击＂贩毒船＂致4人死亡

杭州高架理想MEGA起火，车主：理想救我一命高管：感谢认可事故正了解中

库克继续押宝印度制造一手在印度扩产一手安抚特朗普

“5C超充+800V”只卖14万？新阿尔法T5亮相成都车展，人气依旧爆棚

娃哈哈被指将换标＂娃小宗＂官网公布对外总机已成空号

这「禁欲」男神天花板，太顶了

两名落马官员同名还是亲兄弟哥哥被指顶替弟弟上大学

NBA战报：凯尔特人115-101公牛取NBA4连胜，安芬尼-西蒙斯27+3+3

印媒：莫迪将于8月31日至9月1日访华

青创人才说 | 柒色莲生物汪会兵：当好iPSC细胞疗域“铺路人”

＂90后＂王兴兴：小学时想当科学家同学一句话启发了我

“怎么果里果气的？” 荣耀，还缺一个爆款

本科生因＂逆天学术履历＂引争议学校回应：正在核查中

新美联储通讯社：美联储暗示暂停降息行动，新债王：今天或是鲍威尔任内最后一次

零件细节曝光新款奔驰S级将于2026年推出

欧豪：16岁送外卖，21岁遇到贵人谢霆锋