关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪2025-07-14 12:00:015194人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

已确诊1199例基孔肯雅热 佛山多区发布"告全体市民书"

环球网资讯 浏览 8937 07-19

“科瑞系”郑跃文和女明星搞内幕交易,亏了钱还双双被抓!

野马财经 浏览 393 09-10

马特乌斯预测新赛季德甲:拜仁冠军,勒沃库森第四,霍芬海姆降级

直播吧 浏览 370 08-23

U23国足战越南官方阵型: 4-4-2!鲍盛鑫中场,蒯纪闻搭档向余望,胡荷韬可落位边后卫>>

懂球帝 浏览 189 01-21

记录报:巴黎有意罗德里戈-莫拉,但他并不是主要目标

懂球帝 浏览 3861 07-22

肥皂剧继续葡媒:阿森纳和葡体对约克雷斯转会还有250万分歧

直播吧 浏览 5462 07-16

欧尔班不满:美国自己跟中国做生意 却要我们别这么干

澎湃新闻 浏览 3494 06-18

胜委内瑞拉!郭士强强调达到让热身目的,谈杨瀚森缺席,赞王俊杰

篮球资讯达人 浏览 4009 07-25

袁甲:卡纳瓦罗当不了主教练,回欧洲这么久一直没稳定工作

直播吧 浏览 372 09-09

男子强奸大嫂出狱后刺死见义勇为者 庭上称我是受害人

中国新闻周刊 浏览 7637 07-23

一辆"非典型豪车"的中国落点 英力士北京中心启用

网易汽车 浏览 457 05-23

面相变了!看活动上“挂脸”的杨幂,才懂林永健对她的评价

娱乐圈笔娱君 浏览 288 10-25

轮到以色列被打了 以最大城市被炸数百万人逃入避难所

起喜电影 浏览 483 09-16

时隔2688天,汉堡终于在德甲进球并获胜

懂球帝 浏览 322 09-21

时隔23年,国米和罗马再次在意甲至少10轮过后同分领跑

懂球帝 浏览 220 11-11

中学已婚女老师色诱勾引男学生 聊天内容流出不堪入目

社会酱 浏览 3725 07-29

2025蔚来日在杭州成功举办

财经无忌 浏览 320 09-22

律师:如果卢克曼继续罢训,亚特兰大可申请仲裁给他降薪甚至索赔

直播吧 浏览 3519 08-06

日常穿衣简约才高级,快看看这27套基础穿搭,大方舒适得体

静儿时尚达人 浏览 9777 08-10

亏损超1.4亿?《浪浪人生》票房崩塌

靠谱电影君 浏览 296 10-01

苹果被曝开发类ChatGPT应用!专为训练新Siri打造

智东西 浏览 302 09-29
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11