关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪2025-07-14 12:00:014988人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

MiniMax推出Agent全栈开发功能!一句话聊出演唱会选座系统,可锁座可支付

智东西 浏览 2964 07-17

腾讯混元图像模型 2.1 上新开源:原生 2K 生图、中英文输入

IT之家 浏览 208 09-10

23家湾区企业上榜世界500强,华为重回前100

21世纪经济报道 浏览 6749 07-30

奥哈拉:森林的处理方式简直耻辱;吉布斯-怀特应该起诉并罢训

懂球帝 浏览 3564 07-18

全新雷克萨斯ES纯电版尺寸/内饰升级 外观引争议?

车品 浏览 245 06-13

3年C类合同!天津男篮官宣何思雨离开两年后归队 巅峰季场均11分

醉卧浮生 浏览 263 08-22

全球最亮、最节能:港科大研发出新一代 QRLED

IT之家 浏览 1910 07-17

葡萄育种的“科技加速器”:当基因芯片遇上AI表型组

中国科普博览 浏览 2757 07-17

推广Ⅱ抄作业!港女的头皮护理,每天1分钟头发真的变多了?

黎贝卡的异想世界 浏览 1702 08-02

美国批准英伟达向中国销售芯片 外交部回应

澎湃新闻 浏览 1553 07-16

"普特会"前 欧洲欲与乌克兰划出"共同红线"

参考消息 浏览 5754 08-11

雷军在京喊话:共同抵制网络水军、黑公关

大象新闻 浏览 105 10-19

美军2架F-18战机飞入委内瑞拉领空 停留至少40分钟

界面新闻 浏览 7 12-11

伊朗情报部长:伊朗成功渗透以色列核研究设施

红星新闻 浏览 188 09-26

吉文:可能我有点老派,看不惯加纳乔走路歪着身子还挂条链子

懂球帝 浏览 29 11-27

中年女人想穿得时髦,少穿羽绒服+紧身裤,换成这些好看保暖

静儿时尚达人 浏览 25 11-22

奥特曼气到快失眠?OpenAI前大佬力挺:小扎砸钱挖墙脚,1亿美元很合理

新智元 浏览 3192 07-14

科学家成功培育全功能“微型人脑”

网易科技报道 浏览 5297 08-07

华为郭平:我们处在剧变的洪流中,不能靠情怀来占领市场

观察者网 浏览 208 09-01

何炅51岁无妻无子,且不再隐瞒身体状况了?

艳儿说电影 浏览 90 10-21

过气男神集体景区再就业?49岁郑国霖马景涛太卷

温读史 浏览 3603 08-09
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11