关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪2025-07-14 12:00:014574人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

患者称医生推荐的抗癌药其实是"临床试验药" 重庆通报

界面新闻 浏览 7128 07-14

特朗普计划7月4日与泽连斯基通电话

界面新闻 浏览 1889 07-05

多轮破亿元资金注入人形机器人赛道,资本更青睐“汽车人”造“人”?

华夏时报 浏览 9891 07-24

百万年薪高调招聘!京东或将进军短剧市场

第一财经资讯 浏览 9219 07-12

大洗牌!许多老板还在硬撑!

米筐投资 浏览 690 07-31

印度一客机坠毁:原计划飞往伦敦 事故据称发生在起飞期间

环球网 浏览 8914 06-13

百度李彦宏:萝卜快跑 Robotaxi 转向纯视觉才有机会

IT之家 浏览 1971 07-14

智元、宇树中标 1.24 亿元中国移动子公司人形机器人订单

IT之家 浏览 1642 07-12

新款奥迪Q5L实车曝光,轴距增加,黑科技加持

大李说车 浏览 4750 06-26

全球首搭地平线6P+HSD 奇瑞星纪元E05设计稿曝光

网易汽车 浏览 3958 07-16

韩安冉回应学历质疑,强调自己攻读硕士学位,曾透露在国外求学

扒虾侃娱 浏览 8747 07-09

iOS 26公测版发布:视觉交互优化 修复多项问题

网易数码 浏览 9510 07-25

男子修山路时售卖炸落石头 被判非法采矿罪获刑9个月

澎湃新闻 浏览 3954 06-19

周鸿祎评DeepSeek流量下滑:没花心思,梁文锋一门心思做AGI;影石宣布进军无人机市场;传阿里本周将发布首款自研AI眼镜

雷峰网 浏览 1365 07-24

迈阿密国际后卫法尔孔:若德保罗能加盟,会对我们有很大帮助

懂球帝 浏览 5599 07-14

半场-利物浦1-0普雷斯顿 布拉德利破门索博斯洛伊献助攻

直播吧 浏览 6530 07-14

商务部:美方将取消对华一系列限制性措施

日月谭天 浏览 4489 06-28

成都一小区退还940余万元物业费 业主最少能拿5000元

每日经济新闻 浏览 8011 07-30

韩红深夜发文炸锅,四件大事信息量太大!

观察鉴娱 浏览 4235 07-14

外贸十强市大洗牌:深圳重回第一,东莞夺回第五

时代周报 浏览 3050 07-25

底价只需1元,华润置地欲退出某城更集团,这是何意?

密探财经 浏览 1738 07-31
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11