关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪2025-07-14 12:00:014989人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

中芯国际产能“拉满”,净利润同比降19%

21世纪经济报道 浏览 9978 08-09

娃哈哈员工:杜建英生完孩子才领证 可能和上家谱有关

江西广播电视台都市现场 浏览 841 07-17

7月17日外媒科学网站摘要:新型移植技术让心脏停跳后仍可移植

网易科技报道 浏览 2876 07-18

连爆2大行业瓜!大花回应只字不提影帝

大龄女一晓彤 浏览 48 11-10

昔日"水果贵族"价格大跳水 从300元一斤跌至9.9元3斤

极目新闻 浏览 249 08-25

美政府出动"死神"无人机巡航监视洛杉矶

环球网资讯 浏览 3661 06-13

短道速滑世巡赛:刘少昂500米摘银,孙龙摔倒后夺得铜牌

懂球帝 浏览 111 10-19

驴友在秦岭失联遇难 公益救援队被家属起诉:心寒

红星新闻 浏览 234 09-20

孩子长不高,打生长激素到底行不行?

网易健康 浏览 1144 12-30

李亚鹏宣布离婚!跟海哈金喜结婚不到5年,网友质疑是为了躲债

萌神木木 浏览 97 10-15

消费限制松绑叠加消费旺季临近 白酒板块迎来配置机遇期

金证研 浏览 262 08-22

世锦赛男子200蛙预赛:覃海洋2分09秒96排名第4,携手董志豪晋级

全景体育V 浏览 7227 07-31

聚焦人工智能等领域,工信部对“开源”作出新部署

第一财经资讯 浏览 3308 07-25

公职人员下班后送外卖:一天能赚100 像打游戏一样快乐

封面新闻 浏览 4082 07-23

会见普京后 特朗普被指口风变了:考虑参照北约协防乌

观察者网 浏览 314 08-18

记者:加拉塔萨雷再次拒绝科莫对莫拉塔的报价,球队视他为关键

直播吧 浏览 9674 07-31

迈阿密管理层:德保罗的雄心与我们相契合;签下他球迷很自豪

懂球帝 浏览 6001 07-26

华能两公司被指"串谋"涨电价 遭红牌警告

红星新闻 浏览 301 08-13

伊姐周日热推:电视剧《依依向北风》;电视剧《水龙吟》......

伊周潮流 浏览 97 10-20

网约车司机询问乘客性经历被永久封号 三年后起诉平台

红星新闻 浏览 184 09-19

韩媒:美国提要求 施压韩国应对"台湾有事"

环球时报国际 浏览 5513 07-26
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11