关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪2025-07-14 12:00:015197人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

中科大和华为联手破解大语言模型"注意力"背后的神秘规律

科技行者 浏览 197 02-04

美国Q2实际GDP年化季环比初值3%好于预期

网易财经 浏览 6535 07-31

女子被取消"吉林好人"候选资格 事迹写"炒菜多放辣椒"

扬子晚报 浏览 3035 08-13

长城汽车与贾跃亭重磅合作!

电动知家 浏览 9226 07-24

欧豪骨子里的江湖气与角色浑然天成

呱田里的猹 浏览 307 10-12

曾在中国顶尖大学执教,“80后”博士创业开公司,冲刺IPO前套现超5000万元!公司现金仅剩500多万元,负债攀升,员工减少三成

每日经济新闻 浏览 1910 07-17

巴奴冲刺港股,餐饮投资逻辑变了

伯虎财经 浏览 1886 07-24

济南时报:韩国主帅表决心定要击败中国队 明晚男篮将帅切莫大意

直播吧 浏览 1610 08-13

拉莫斯:可以接受战平浙江队的结果,球队走在正确的道路上

懂球帝 浏览 260 10-26

重磅!利物浦1.3亿镑签下伊萨克,再刷英超转会费纪录,将体检

念洲 浏览 336 09-01

斯坦福大学等发布:AI助手在企业政策执行上"偏科"得如此严重

科技行者 浏览 190 01-11

烂大街的土裙子别穿了!这6件洋气巨显瘦,回头率100%

Yuki女人故事 浏览 4814 06-09

韩国人终于把自己的“国运”给彻底玩没了

浏览 8858 07-14

俄乌冲突升级 美西方大使馆紧急撤离

浏览 9147 07-14

复出首战告负!商竣程两盘不敌达克沃斯,止步多伦多大师赛首轮

直播吧 浏览 5875 07-28

阿娇独居北京三居室,44岁仍想怀孕生子

阿废冷眼观察所 浏览 7878 07-12

900万打水漂也要反悔,西安私募缘何放弃曲江文旅1200万股股权?

时代周报 浏览 356 09-11

苹果短期内不会在美国生产 iPhone,库克也承认将长期在海外组装

IT之家 浏览 9593 08-11

单月涨粉121万!余承东和雷军谁才是“流量之王”?

BT财经 浏览 3683 07-16

6个月宝宝竟长了篮球大肿瘤!3个真相必须了解

网易健康 浏览 7772 06-03

特斯拉全球第900万辆电动车在上海超级工厂下线

特斯拉 浏览 173 12-31
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11