关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪2025-07-14 12:00:015192人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

极氪启动跨代智驾众筹 24款老车主可低价直升Thor-U

网易汽车 浏览 226 11-27

男子自称前股东 实名举报李雪琴公司财务问题

鲁中晨报 浏览 9713 06-18

没有郑钦文,美网单打前八种子确定

网球之家 浏览 418 08-21

95后小伙在杭州摆摊卖老家卷馍火了 一天赚4000元

极目新闻 浏览 2312 08-24

原配自杀、儿子残疾,再娶小12岁娇妻,难怪唐国强73岁还这么拼

不八卦会死星人 浏览 472 08-12

鲁比奥:以色列空袭卡塔尔让美国不高兴 总统也不高兴

澎湃新闻 浏览 420 09-15

中国拖拉机之王,要 IPO 了

投资家 浏览 9128 08-09

“渣女上衣”火了?巨洋气巨显瘦!谁穿谁好看!

Yuki女人故事 浏览 4083 07-17

乌克兰:过去一天发生175次战斗 造成俄军死伤920人

央视新闻客户端 浏览 504 08-21

英特尔正实施近15%裁员方案

界面新闻 浏览 10095 07-25

杨幂一句话让赵丽颖“输惨”?口碑彻底反转,才懂高情商的含金量

瓜农娟姐 浏览 311 10-01

网传奇瑞应届生员工发邮件反对周六开会,当事人发帖称“已离职”

IT之家 浏览 441 08-24

媒体:"汉光"演习暴露台军大麻烦 而且看不到解决希望

枢密院十号 浏览 2764 07-12

媒体:联手东盟、日韩 中国正为下一轮对美谈判做准备

澎湃新闻 浏览 3059 07-13

俄罗斯强震后 海啸淹没2000人居住的港口城镇

潇湘晨报 浏览 2465 07-31

苹果单周上涨13%,库克又一次搞定特朗普

华尔街见闻官方 浏览 2859 08-09

每天干十几个小时,月赚五六千元,有人6万元盘下,几个月后2万多才脱手!曾经爆火的创业项目遭嫌弃

都市快报橙柿互动 浏览 175 01-15

文章车副驾疑是姚笛,旧人重逢引猜测:这画面,马伊琍看了咋想

蕾爸退休日记 浏览 9699 08-13

东京车站一日本老人倒地头破血流 中国医学硕士施救

极目新闻 浏览 6232 07-27

印度47岁男子自称"大使" 开假大使馆近10年才被发现

极目新闻 浏览 6960 07-26

俄无人机飞入波兰 美国务卿:不可接受

每日经济新闻 浏览 333 09-15
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11