参考指南

本文主要作者：赵毓钟，中国科学院大学在读博士，微软亚洲研究院 MSRA 实习生，主要研究方向为多模态学习、语言模型后训练。刘悦，中国科学院大学在读博士，微软亚洲研究院 MSRA 实习生，主要研究方向为视觉表征模型。

指导老师：万方，中国科学院大学计算机学院副教授，博导。叶齐祥，中国科学院大学电子学院教授，博导。崔磊，微软亚洲研究院通用人工智能组（GenAI）首席研究经理。韦福如，微软亚洲研究院通用人工智能组（GenAI）杰出科学家。

近年来，强化学习（RL）在大型语言模型（LLM）的微调过程中，尤其是在推理能力提升方面，取得了显著的成效。传统的强化学习方法，如近端策略优化（Proximal Policy Optimization，PPO）及其变种，包括组相对策略优化（Group Relative Policy Optimization，GRPO），在处理复杂推理任务时表现出了强大的潜力。然而，尽管它们在许多场景下都表现良好，仍然面临着在训练过程中不稳定的问题，尤其是在处理带有极端重要性加权奖励时。几何平均策略优化（Geometric-Mean Policy Optimization，GMPO），作为

大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO

欧尔班发文呼...

70岁＂老虎...

成都蓉城官方...

岚图卢放：打...

炖个排骨结果...

玛莎拉蒂MS...

U23亚洲杯1/4决赛对阵出炉！U23国足迎战乌兹别克

刷游戏像刷视频，这个AI游戏版TikTok火了

复出高效，波尔津吉斯砍30分5板4助2断3帽&得分勇士生涯新高

英伟达推出机器人最强＂大脑＂，宇树科技用上了

赵丽颖直播太实诚，被问儿子暖还是羊绒暖，赵丽颖果断选择儿子

46岁的秦海璐，每月给婆婆钱说是她的第三个孩子

布翁焦尔诺谈主场欧冠首秀：听见欧冠主题曲时我感到无比激动

老汉与女子领证被骗70万女方获刑10年多宁坐牢不退钱

撒贝宁随李白回加拿大探亲，俩人带着龙凤胎闲逛

香奈儿2026高级手工坊｜最贴近日常的高级奢华

法国宣布正式承认巴勒斯坦国

置换价17.99万起奇瑞风云T11正式上市

黄奕回应女儿被抵制：支持她勇敢面对

F1车队积分榜：迈凯伦324分优势领跑，法拉利第二、梅赛德斯第三

好久没跟大家线下见面啦，快来找我玩

飞象老师爆火背后：AI进课堂，先要过教师这一关

大学生打游戏猝死家属：校方15分钟后打电话说他晕倒

34年来首次普京下令起草恢复核武器试验提议

电动车充电别开窗，美国研究揭示电动车快充站的隐藏污染风险

TP-Link 推出旗下首款 Wi-Fi 7 旅行路由器 TL-WR3602BE

悬空三年终落定！华泰人寿为何选了精算师出任总经理？

都在等金银开盘！洪灏：坚定看多长期价值，招行：调整继续，但能到6500

韩国直说了：美国危机感强要我们联手遏制中国

全新夜影蓝车色/6月10日亮相领克01焕新版官图发布