关闭广告

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

爆角追踪2025-07-14 12:00:015292人阅读

Karpathy 认为强化学习（RL）在 AI 领域目前很火，而且确实能带来显著的性能提升。RL 的核心逻辑是：通过奖励信号（比如“这次做得好”或“这次很差”），调整模型未来行为的概率。

这种方法比传统的监督微调（SFT）更高效，因为它通过“试错”能挖掘出更优的策略，而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”（验证函数）带来的杠杆效应——你只需要告诉模型结果好坏，它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧，说明 RL 可能不是 AI 智能进化的全部答案：

1. 长任务的局限性（渐进问题）：

当任务变得很长（比如需要几分钟甚至几小时的交互），RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

精彩推荐

王莉霞任上被查内蒙古多地表态：坚决拥护党中央决定

政知新媒体浏览 602 08-24

美国劳工部对就业人数大幅下修展开调查

智通财经浏览 440 09-11

突击队“对冲”无人机俄乌激战红军城

上观新闻浏览 1603 08-13

小米Watch Type-C充电底座发布：磁吸设计、共用手机线，39元

IT之家浏览 226 03-11

戴维斯被视为活塞头号目标梭哈年轻资产仍存疑虑

体坛周报浏览 273 12-11

保安被同事推倒昏迷多月未醒女儿：警方立为行政案件

扬子晚报浏览 1255 08-14

钉钉联手通义推出Fun-ASR语音识别大模型

网易科技报道浏览 531 08-22

孙兴慜：很高兴首秀但遗憾未能取胜点球毫无疑问&有身体接触

直播吧浏览 772 08-10

AI能力“非线性提升”，这被市场普遍低估！大摩：90%职业将受影响，就业结构将“根本转变”

华尔街见闻官方浏览 504 08-29

特朗普称＂不许中国领先美国＂不到24小时中方定下规矩

军机Talk 浏览 278 01-18

重庆一男子小区内尾随女童进电梯还进行拉拽已被刑拘

界面新闻浏览 2277 06-11

LLM把简单任务复杂化，Karpathy无语：有些任务无需那么多思考

机器之心Pro 浏览 9898 08-12

乌军：袭击俄空军基地 4架飞机被击中

每日经济新闻浏览 9765 06-28

泽连斯基：基辅遭遇冲突爆发以来最猛烈空袭

界面新闻浏览 10683 06-11

李家超：10月起香港将扩大飞机离境税豁免范围

上观新闻浏览 387 09-18

女子穿新买的连体泳衣游泳后走光商家：只能下水拍照

极目新闻浏览 5653 07-14

美国将打造全球首座可移动核反应堆工厂，落户“曼哈顿计划”旧址

IT之家浏览 392 10-15

廷贝尔：联赛杯决赛也许能成为争冠动力；哈弗茨不是安静的人

懂球帝浏览 275 02-05

辛芷蕾获威尼斯影后成第三位华人威尼斯影后

环球网资讯浏览 457 09-07

好莱坞高冷美人，被曝已破产靠救济度日

译言浏览 279 01-18

美拉德失宠了？今年冬天最流行的3个颜色，谁穿谁好看！

LinkFashion 浏览 220 11-07

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

三年穿越风雷...

地狱笑话的背...

牛弹琴:两中...

突发！技术派...

记者：尤文、...

许尔策勒：足...

“太空快递”签收后航天员在忙什么？中国空间站多领域新实验上线

万科：董事长辛杰辞职

陈乔恩带老公和父母聚餐，Alan负责拍照

王莉霞任上被查内蒙古多地表态：坚决拥护党中央决定

美国劳工部对就业人数大幅下修展开调查

突击队“对冲”无人机俄乌激战红军城

小米Watch Type-C充电底座发布：磁吸设计、共用手机线，39元

戴维斯被视为活塞头号目标梭哈年轻资产仍存疑虑

保安被同事推倒昏迷多月未醒女儿：警方立为行政案件

钉钉联手通义推出Fun-ASR语音识别大模型

孙兴慜：很高兴首秀但遗憾未能取胜点球毫无疑问&有身体接触

AI能力“非线性提升”，这被市场普遍低估！大摩：90%职业将受影响，就业结构将“根本转变”

特朗普称＂不许中国领先美国＂不到24小时中方定下规矩

重庆一男子小区内尾随女童进电梯还进行拉拽已被刑拘

LLM把简单任务复杂化，Karpathy无语：有些任务无需那么多思考

乌军：袭击俄空军基地 4架飞机被击中

泽连斯基：基辅遭遇冲突爆发以来最猛烈空袭

李家超：10月起香港将扩大飞机离境税豁免范围

女子穿新买的连体泳衣游泳后走光商家：只能下水拍照

美国将打造全球首座可移动核反应堆工厂，落户“曼哈顿计划”旧址

廷贝尔：联赛杯决赛也许能成为争冠动力；哈弗茨不是安静的人

辛芷蕾获威尼斯影后成第三位华人威尼斯影后

好莱坞高冷美人，被曝已破产靠救济度日

美拉德失宠了？今年冬天最流行的3个颜色，谁穿谁好看！

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

三年穿越风雷...

地狱笑话的背...

牛弹琴:两中...

突发！技术派...

记者：尤文、...

许尔策勒：足...

“太空快递”签收后航天员在忙什么？中国空间站多领域新实验上线

万科：董事长辛杰辞职

陈乔恩带老公和父母聚餐，Alan负责拍照

王莉霞任上被查 内蒙古多地表态：坚决拥护党中央决定

美国劳工部对就业人数大幅下修展开调查

突击队“对冲”无人机 俄乌激战红军城

小米Watch Type-C充电底座发布：磁吸设计、共用手机线，39元

戴维斯被视为活塞头号目标 梭哈年轻资产仍存疑虑

保安被同事推倒昏迷多月未醒 女儿：警方立为行政案件

钉钉联手通义推出Fun-ASR语音识别大模型

孙兴慜：很高兴首秀但遗憾未能取胜 点球毫无疑问&有身体接触

AI能力“非线性提升”，这被市场普遍低估！大摩：90%职业将受影响，就业结构将“根本转变”

特朗普称＂不许中国领先美国＂ 不到24小时中方定下规矩

重庆一男子小区内尾随女童进电梯还进行拉拽 已被刑拘

LLM把简单任务复杂化，Karpathy无语：有些任务无需那么多思考

乌军：袭击俄空军基地 4架飞机被击中

泽连斯基：基辅遭遇冲突爆发以来最猛烈空袭

李家超：10月起香港将扩大飞机离境税豁免范围

女子穿新买的连体泳衣游泳后走光 商家：只能下水拍照

美国将打造全球首座可移动核反应堆工厂，落户“曼哈顿计划”旧址

廷贝尔：联赛杯决赛也许能成为争冠动力；哈弗茨不是安静的人

辛芷蕾获威尼斯影后 成第三位华人威尼斯影后

好莱坞高冷美人，被曝已破产靠救济度日

美拉德失宠了？今年冬天最流行的3个颜色，谁穿谁好看！

王莉霞任上被查内蒙古多地表态：坚决拥护党中央决定

突击队“对冲”无人机俄乌激战红军城

戴维斯被视为活塞头号目标梭哈年轻资产仍存疑虑

保安被同事推倒昏迷多月未醒女儿：警方立为行政案件

孙兴慜：很高兴首秀但遗憾未能取胜点球毫无疑问&有身体接触

特朗普称＂不许中国领先美国＂不到24小时中方定下规矩

重庆一男子小区内尾随女童进电梯还进行拉拽已被刑拘

女子穿新买的连体泳衣游泳后走光商家：只能下水拍照

辛芷蕾获威尼斯影后成第三位华人威尼斯影后