关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪2025-07-14 12:00:015195人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

黎智英等9名被告人一连4日进行求情 香港大量警员戒备

扬子晚报 浏览 210 01-13

一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军

新智元 浏览 274 10-15

爱奇艺发布2026年分账内容合作新规

封面新闻 浏览 189 01-21

“肉测”成都自动驾驶公交:提前免费预约,一人一座,一趟车有14个名额

红星新闻 浏览 202 01-07

国内首个航空科幻主题乐园落户上海临港 年底迎客

界面新闻 浏览 9259 06-23

付辛博颖儿七夕合体提车,夫妻俩一人买一台,AA制婚姻一样长久

萌神木木 浏览 56354 08-30

票房会破10亿?看完《阿凡达3》后,我极其冷静地,写下这篇文章

皮皮电影 浏览 182 12-24

在美国卖酱香饼的中国小伙开直播:花了3万美金已保释

都市现场 浏览 1744 07-21

《清潭国际高中 第二季》,又一全员恶人剧来袭!

伊周潮流 浏览 1547 07-19

特朗普:可能很快宣布美联储新任主席

证券时报e公司 浏览 5447 08-06

杨少华灵堂细节 杨家儿子榨干老父亲?

喜欢历史的阿繁 浏览 7127 07-11

著名女登山家在世界第9高峰坠亡 向导:她尖叫后滚落

红星新闻 浏览 3234 07-16

法国展示“凯撒”自行榴弹炮 承诺继续向乌交付

环球网资讯 浏览 263 10-22

入主三超新材的博达新能:消失的柬埔寨工厂

赶碳号 浏览 8589 08-06

李连杰讲述病情:62岁生日时发现颈部肿块 确定是良性

鲁中晨报 浏览 513 08-29

广汽丰田全新威兰达申报

大象新闻 浏览 484 08-11

"胖兵照"浏览量超过3000万 数据显示美军肥胖率超20%

红星新闻 浏览 267 10-15

京东再出重拳!联手长安设计开发新能源无人智能化车型以及城市智慧物流

封面新闻 浏览 244 10-21

登舱,前往虚实交织的山海宇宙寻龙

文汇报 浏览 2364 07-17

"震荡"之后中美传来好消息 李成钢的表态意味深长

中国新闻周刊 浏览 269 10-28

东方甄选,连续暴跌

中国基金报 浏览 381 08-27
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11