关闭广告

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

爆角追踪2025-07-14 12:00:015295人阅读

Karpathy 认为强化学习（RL）在 AI 领域目前很火，而且确实能带来显著的性能提升。RL 的核心逻辑是：通过奖励信号（比如“这次做得好”或“这次很差”），调整模型未来行为的概率。

这种方法比传统的监督微调（SFT）更高效，因为它通过“试错”能挖掘出更优的策略，而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”（验证函数）带来的杠杆效应——你只需要告诉模型结果好坏，它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧，说明 RL 可能不是 AI 智能进化的全部答案：

1. 长任务的局限性（渐进问题）：

当任务变得很长（比如需要几分钟甚至几小时的交互），RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

精彩推荐

马斯克芯片大单砸向三星，还亲自教建工厂

网易科技报道浏览 3691 07-29

黎巴嫩民众雨中避难超83万人流离失所

国际在线浏览 238 03-17

被拐35年团圆重逢瞬间儿子劝慰泪崩母亲：重新开始

封面新闻浏览 10635 07-23

桑乔替补登场又被换下，埃梅里：这不是惩罚，而是战术决定

懂球帝浏览 327 10-28

“弟弟妹妹”突然杀到，宗馥莉接班不易

智谷趋势浏览 3408 07-15

小S和吴家争斗白热化！吴宗宪放话我女儿代言最多，已经准备起诉

萌神木木浏览 1219 07-24

今年夏天“微透风”火出圈了，这样穿时髦松弛又减龄

LinkFashion 浏览 6404 07-04

小米SU7 Ultra量产版刷新纽北量产电动车圈速纪录

网易汽车浏览 513 06-11

股权传承落定娃哈哈正式迈入“宗馥莉时代”

看看新闻Knews 浏览 564 08-28

SRM理工学院发布：文本到视频生成技术演进图谱

科技行者浏览 324 11-09

郑丽文出席联合祭祖大典:盼未来中华儿女不再自相残杀

海峡导报社浏览 296 01-02

普京：俄方已无兴趣等待乌从其占领区撤出

每日经济新闻浏览 271 12-29

稳居无创产检检测赛道第二，双三类证在手，安诺优达三度闯关港股|港E声

时代周报浏览 146 04-22

百奥赛图实控人持股三成大额负债，亏损超15亿元图科创募资

权衡财经浏览 4164 08-12

内娱最癫综艺，又出来「作妖」了

娱乐圈笔娱君浏览 197 04-10

卡萨金娜更新社媒：我只想抱抱阿尼西莫娃

懂球帝浏览 5077 07-14

阚清子官宣怀孕后，纪凌尘被扒出跟阚清子的合照

小徐讲八卦浏览 15095 07-26

知情人：泽连斯基会晤中并未断然拒绝＂领土交换＂提议

上观新闻浏览 568 08-20

“胖改”路上，永辉超市阵痛加剧

斑马消费浏览 5352 07-16

BBC两高管宣布辞职特朗普：他们试图＂介入总统选举＂

红星新闻浏览 335 11-11

特朗普披露斡旋俄乌动机：担心自己死后无法上天堂

澎湃新闻浏览 593 08-21

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

华为巴黎发布...

端午粽飘香，...

【工银积存金...

台风＂桦加沙...

伊姐周日热推...

小米 17 ...

再婚与初婚同享15天婚假多地明确：婚假延长

今世缘，开了一个不好的头

纯电移动＂游戏机＂索尼本田合资AFEELA 1亮相CES

马斯克芯片大单砸向三星，还亲自教建工厂

黎巴嫩民众雨中避难超83万人流离失所

被拐35年团圆重逢瞬间儿子劝慰泪崩母亲：重新开始

桑乔替补登场又被换下，埃梅里：这不是惩罚，而是战术决定

“弟弟妹妹”突然杀到，宗馥莉接班不易

小S和吴家争斗白热化！吴宗宪放话我女儿代言最多，已经准备起诉

今年夏天“微透风”火出圈了，这样穿时髦松弛又减龄

小米SU7 Ultra量产版刷新纽北量产电动车圈速纪录

股权传承落定娃哈哈正式迈入“宗馥莉时代”

SRM理工学院发布：文本到视频生成技术演进图谱

郑丽文出席联合祭祖大典:盼未来中华儿女不再自相残杀

普京：俄方已无兴趣等待乌从其占领区撤出

稳居无创产检检测赛道第二，双三类证在手，安诺优达三度闯关港股|港E声

百奥赛图实控人持股三成大额负债，亏损超15亿元图科创募资

内娱最癫综艺，又出来「作妖」了

卡萨金娜更新社媒：我只想抱抱阿尼西莫娃

阚清子官宣怀孕后，纪凌尘被扒出跟阚清子的合照

知情人：泽连斯基会晤中并未断然拒绝＂领土交换＂提议

“胖改”路上，永辉超市阵痛加剧

BBC两高管宣布辞职特朗普：他们试图＂介入总统选举＂

特朗普披露斡旋俄乌动机：担心自己死后无法上天堂

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

华为巴黎发布...

端午粽飘香，...

【工银积存金...

台风＂桦加沙...

伊姐周日热推...

小米 17 ...

再婚与初婚同享15天婚假 多地明确：婚假延长

今世缘，开了一个不好的头

纯电移动＂游戏机＂ 索尼本田合资AFEELA 1亮相CES

马斯克芯片大单砸向三星，还亲自教建工厂

黎巴嫩民众雨中避难 超83万人流离失所

被拐35年团圆 重逢瞬间儿子劝慰泪崩母亲：重新开始

桑乔替补登场又被换下，埃梅里：这不是惩罚，而是战术决定

“弟弟妹妹”突然杀到，宗馥莉接班不易

小S和吴家争斗白热化！吴宗宪放话我女儿代言最多，已经准备起诉

今年夏天“微透风”火出圈了，这样穿时髦松弛又减龄

小米SU7 Ultra量产版刷新纽北量产电动车圈速纪录

股权传承落定 娃哈哈正式迈入“宗馥莉时代”

SRM理工学院发布：文本到视频生成技术演进图谱

郑丽文出席联合祭祖大典:盼未来中华儿女不再自相残杀

普京：俄方已无兴趣等待乌从其占领区撤出

稳居无创产检检测赛道第二，双三类证在手，安诺优达三度闯关港股|港E声

百奥赛图实控人持股三成大额负债，亏损超15亿元图科创募资

内娱最癫综艺，又出来「作妖」了

卡萨金娜更新社媒：我只想抱抱阿尼西莫娃

阚清子官宣怀孕后，纪凌尘被扒出跟阚清子的合照

知情人：泽连斯基会晤中并未断然拒绝＂领土交换＂提议

“胖改”路上，永辉超市阵痛加剧

BBC两高管宣布辞职 特朗普：他们试图＂介入总统选举＂

特朗普披露斡旋俄乌动机：担心自己死后无法上天堂

再婚与初婚同享15天婚假多地明确：婚假延长

纯电移动＂游戏机＂索尼本田合资AFEELA 1亮相CES

黎巴嫩民众雨中避难超83万人流离失所

被拐35年团圆重逢瞬间儿子劝慰泪崩母亲：重新开始

股权传承落定娃哈哈正式迈入“宗馥莉时代”

BBC两高管宣布辞职特朗普：他们试图＂介入总统选举＂