关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪2025-07-14 12:00:015193人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

经纪人回应“陈冠希飞机上怒怼空乘”

扬子晚报 浏览 5362 06-19

AI录音卡爆火90天:阿里下场,华强北低价围猎,一场恶战在所难免

时代周报 浏览 330 09-22

李连杰因甲亢住院,病床照曝光表情痛苦,好友晒聊天记录报平安

扒虾侃娱 浏览 411 08-18

招商证券,新五年战略曝光!

券商中国 浏览 1668 07-30

特朗普称以色列接受加沙停火必要条件 呼吁哈马斯也接受

新华社 浏览 4404 07-03

美拉德+黑蓝白,太好看了!

Yuki女人故事 浏览 284 09-25

入职要姓“鼠”?三只松鼠工作人员回应

第一财经资讯 浏览 201 11-25

小红书社区公约2.0里的「UGC社区进化史」

周天财经 浏览 192 01-20

7月14日外媒科学网站摘要:中美科学家竞相让类器官自己长出血管

网易科技报道 浏览 2198 07-15

全智贤新剧公然辱华:女神形象中国彻底崩塌,背后真相被曝光

影像温度 浏览 380 09-20

8月电车成绩单:小鹏交付量同比增长169%,零跑交付5.7万台,小米交付再超3万台

华尔街见闻官方 浏览 370 09-01

佟大为夫妇云冈石窟被偶遇,46岁关悦近照曝光,路人生图超真实

扒虾侃娱 浏览 9873 08-14

理想汽车遭泄密!

电动知家 浏览 4600 07-14

特朗普:乌克兰无牌可打 错过解决俄乌问题的最佳时机

台州交通广播 浏览 179 12-05

爆冷输吉林!王博纯犯错!用人+暂停一塌糊涂,上全华班都能赢!

篮球资讯达人 浏览 168 02-03

32岁章泽天回国创业,烫羊毛卷素颜开会很自信

娱乐团长 浏览 196 01-12

俄核动力导弹即将试射 欧盟紧急视频会议讨论俄乌局势

每日经济新闻 浏览 4215 08-13

头晕头痛别大意,小心淋巴瘤在作祟

网易健康 浏览 3593 06-03

iPhone在中国不好卖了?外媒:苹果想靠折叠机翻身

网易科技报道 浏览 9415 07-21

“跑路”新加坡!从现象级应用到清空微博,Manus发生了什么?

雷科技 浏览 5321 07-12

本轮巴以冲突已致加沙地带58479人死亡

环球网资讯 浏览 3764 07-16
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11