关闭广告

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

爆角追踪2025-07-14 12:00:014491人阅读

Karpathy 认为强化学习（RL）在 AI 领域目前很火，而且确实能带来显著的性能提升。RL 的核心逻辑是：通过奖励信号（比如“这次做得好”或“这次很差”），调整模型未来行为的概率。

这种方法比传统的监督微调（SFT）更高效，因为它通过“试错”能挖掘出更优的策略，而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”（验证函数）带来的杠杆效应——你只需要告诉模型结果好坏，它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧，说明 RL 可能不是 AI 智能进化的全部答案：

1. 长任务的局限性（渐进问题）：

当任务变得很长（比如需要几分钟甚至几小时的交互），RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

精彩推荐

汪小菲带儿女到内蒙古，玥儿骑马他牵马

小杨侃事浏览 4045 07-15

法国学者五味杂陈：法国技术明珠要被中国摘了

澎湃新闻浏览 1659 07-12

“容嬷嬷”年轻时竟是校花？照片太惊艳了！

邵阳县融媒体中心浏览 8184 07-13

中国父子在德国溺亡：6岁儿子坠湖后父亲跳下船营救

红星新闻浏览 1688 07-16

新官上任三把火，特朗普的第一把火会烧给谁？

浏览 1364 07-14

伊朗：将打击美国在中东地区的所有利益

财联社浏览 5856 06-22

广汽埃安回应员工持股＂爆雷＂传闻：纯属恶意谣言

界面新闻浏览 3410 06-18

＂高考575分被赶出家门＂尖子生已回家：有复读意愿

潇湘晨报浏览 8373 07-12

欧尔班发文呼吁冯德莱恩辞职：是时候离开了

上观新闻浏览 5943 07-10

杨少华灵前突发意外！前央视导演当场情绪失控

石场阿鑫浏览 1080 07-15

140万保时捷在停车场凭空消失调监控发现正驶往外省

掌上春城浏览 767 07-15

江西14家农商行被罚款1333万，2位行长、8位副行长同时收罚单

湘财Plus 浏览 441 07-14

从市区大平层搬到郊区小院，花4年装出了一个让我“神完气足”的理想家

黎贝卡的异想世界浏览 1418 07-03

太原动物园马匹脸部血肉模糊网友质疑被抽打虐待

潇湘晨报浏览 646 07-16

美媒：杜特尔特家族在菲中期选举中表现抢眼

环球网资讯浏览 7794 05-15

如何区分流感和普通感冒？儿科专家详解流感12个疑问

网易健康浏览 9740 12-26

2500km续航风云A9L将于6月25日预售7月上旬上市

网易汽车浏览 4238 06-23

赫尔松州政府大楼被导弹击中乌方公布遭袭瞬间视频

国际在线浏览 7311 06-07

拆解A股5轮牛市轮动规律后，我发现牛市翻倍并不难！

星图金融研究院浏览 3550 07-16

地产深水区，透视房企穿越周期之道

锦缎研究院浏览 4825 07-16

彻底不装了！杜星霖怒骂73岁张纪中，体力不行脾气大约会一身臭汗

二妹扯娱浏览 971 07-11

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

生活中，有哪...

为利益斗到底...

卡塔尔航空：...

周鸿祎：A...

35家A股上...

首次试射两度...

华为手表星闪（NearLink）功能介绍发布

＂山姆下架好丽友派＂吵上热搜盼盼洽洽改用英文名上架

特朗普吹嘘：我终结了伊以战争就像广岛长崎一样

汪小菲带儿女到内蒙古，玥儿骑马他牵马

法国学者五味杂陈：法国技术明珠要被中国摘了

“容嬷嬷”年轻时竟是校花？照片太惊艳了！

中国父子在德国溺亡：6岁儿子坠湖后父亲跳下船营救

新官上任三把火，特朗普的第一把火会烧给谁？

伊朗：将打击美国在中东地区的所有利益

广汽埃安回应员工持股＂爆雷＂传闻：纯属恶意谣言

＂高考575分被赶出家门＂尖子生已回家：有复读意愿

欧尔班发文呼吁冯德莱恩辞职：是时候离开了

杨少华灵前突发意外！前央视导演当场情绪失控

140万保时捷在停车场凭空消失调监控发现正驶往外省

江西14家农商行被罚款1333万，2位行长、8位副行长同时收罚单

从市区大平层搬到郊区小院，花4年装出了一个让我“神完气足”的理想家

太原动物园马匹脸部血肉模糊网友质疑被抽打虐待

美媒：杜特尔特家族在菲中期选举中表现抢眼

如何区分流感和普通感冒？儿科专家详解流感12个疑问

2500km续航风云A9L将于6月25日预售7月上旬上市

赫尔松州政府大楼被导弹击中乌方公布遭袭瞬间视频

拆解A股5轮牛市轮动规律后，我发现牛市翻倍并不难！

地产深水区，透视房企穿越周期之道

彻底不装了！杜星霖怒骂73岁张纪中，体力不行脾气大约会一身臭汗

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

生活中，有哪...

为利益斗到底...

卡塔尔航空：...

周鸿祎：A...

35家A股上...

首次试射两度...

华为手表星闪（NearLink）功能介绍发布

＂山姆下架好丽友派＂吵上热搜 盼盼洽洽改用英文名上架

特朗普吹嘘：我终结了伊以战争 就像广岛长崎一样

汪小菲带儿女到内蒙古，玥儿骑马他牵马

法国学者五味杂陈：法国技术明珠要被中国摘了

“容嬷嬷”年轻时竟是校花？照片太惊艳了！

中国父子在德国溺亡：6岁儿子坠湖后 父亲跳下船营救

新官上任三把火，特朗普的第一把火会烧给谁？

伊朗：将打击美国在中东地区的所有利益

广汽埃安回应员工持股＂爆雷＂传闻：纯属恶意谣言

＂高考575分被赶出家门＂尖子生已回家：有复读意愿

欧尔班发文呼吁冯德莱恩辞职：是时候离开了

杨少华灵前突发意外！前央视导演当场情绪失控

140万保时捷在停车场凭空消失 调监控发现正驶往外省

江西14家农商行被罚款1333万，2位行长、8位副行长同时收罚单

从市区大平层搬到郊区小院，花4年装出了一个让我“神完气足”的理想家

太原动物园马匹脸部血肉模糊 网友质疑被抽打虐待

美媒：杜特尔特家族在菲中期选举中表现抢眼

如何区分流感和普通感冒？儿科专家详解流感12个疑问

2500km续航 风云A9L将于6月25日预售7月上旬上市

赫尔松州政府大楼被导弹击中 乌方公布遭袭瞬间视频

拆解A股5轮牛市轮动规律后，我发现牛市翻倍并不难！

地产深水区，透视房企穿越周期之道

彻底不装了！杜星霖怒骂73岁张纪中，体力不行脾气大 约会一身臭汗

＂山姆下架好丽友派＂吵上热搜盼盼洽洽改用英文名上架

特朗普吹嘘：我终结了伊以战争就像广岛长崎一样

中国父子在德国溺亡：6岁儿子坠湖后父亲跳下船营救

140万保时捷在停车场凭空消失调监控发现正驶往外省

太原动物园马匹脸部血肉模糊网友质疑被抽打虐待

2500km续航风云A9L将于6月25日预售7月上旬上市

赫尔松州政府大楼被导弹击中乌方公布遭袭瞬间视频

彻底不装了！杜星霖怒骂73岁张纪中，体力不行脾气大约会一身臭汗