关闭广告

微软亚研院突破:强化学习赋予语言模型规划能力

科技行者2025-10-28 00:00:01287人阅读


这篇由微软亚洲研究院的王思维、沈依飞、孙皓然等研究人员领衔完成的重要研究发表于2025年9月,论文编号为arXiv:2509.22613v1。研究团队还包括来自北京大学、哈佛大学和南加州大学的学者,这项跨机构合作的成果为我们揭开了一个重要谜题:为什么OpenAI的o1等先进AI模型在解决复杂问题时表现如此出色。

当我们看到ChatGPT或Claude能够解决复杂的数学题、编写完整的代码,或者制定详细的旅行计划时,我们可能会好奇:这些AI是如何学会"思考"和"规划"的?就像一个孩子从简单地记住答案,成长为能够分析问题、制定策略的成熟思考者一样,AI模型也经历了类似的学习过程。

在AI的世界里,存在两种截然不同的学习方式。第一种叫做"监督微调",就像传统的填鸭式教育,老师告诉学生标准答案,学生机械地记住每个问题对应的答案。这种方法看似简单有效,但问题在于,当遇到新情况时,学生往往束手无策,因为他们只是在背诵,而没有真正理解解题的逻辑。

第二种方法叫做"强化学习",这更像是让孩子在实践中摸索。孩子可以尝试不同的方法,如果成功了就得到奖励,失败了就调整策略。通过这种方式,孩子

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

因技术故障 美联航多个航班被下令停飞

财联社 浏览 4990 08-08

委内瑞拉武装部队宣布增招士兵5600名

界面新闻 浏览 295 12-09

报告出炉:亳州机场可用于实际运行

北青网-北京青年报 浏览 5942 06-22

被张坤抛弃,又一巨头跌懵了!

财经锐眼 浏览 268 01-28

一公里走不完?骨质健康拉响警铃

网易健康 浏览 5899 06-03

7岁男孩哭诉被冤枉跳楼坠亡 物业及3个孩子被判赔60万

红星新闻 浏览 10480 08-05

马卡: 姆巴佩在皇马达成50球里程碑,本赛季点球命中率显著提升

直播吧 浏览 385 09-22

好消息,来了!

博闻财经 浏览 349 10-18

有望年内亮相 全新起亚K4旅行版渲染图曝光

车质网 浏览 542 05-29

高市早苗比石破茂更激进 曾称日本应与中国"打热战"

看看新闻Knews 浏览 587 09-09

7.5万美元买的Mirai氢燃料汽车成摆设,加州数百名车主起诉丰田

IT之家 浏览 3188 07-15

彭小苒的逆袭不止“紫衣杀”

小小敏娱乐 浏览 396 10-28

G7对中国提出三个“不许” 媒体质问:凭什么

上游新闻 浏览 362 12-02

1分钟带你了解天问二号任务臂章的小巧思

海外网 浏览 6259 05-29

哈马斯外交领域官员从暗杀中幸存 两个儿子已先后遇害

红星新闻 浏览 495 09-11

金融制裁阴霾下 中俄贸易的坚韧!

浏览 1106 07-14

是否以入选英格兰队为目标?勒温:努力训练,顺其自然

懂球帝 浏览 270 12-21

6岁女童被酒店水池排水管吸住 经历绝望14分钟后溺亡

中国新闻周刊 浏览 5382 08-10

保时捷合法上路版963勒芒赛车:造价500万欧元

IT之家 浏览 537 06-08

ChatGPT还没学会打电话,谷歌搜索AI已经替你电话约服务,还会谈价砍单!

新智元 浏览 4368 07-18

曝辽宁浙江同曦接触广东有意徐昕 浙江只想付转会费不想出球员

醉卧浮生 浏览 2144 08-14
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11