关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪2025-07-14 12:00:015295人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

马斯克芯片大单砸向三星,还亲自教建工厂

网易科技报道 浏览 3691 07-29

黎巴嫩民众雨中避难 超83万人流离失所

国际在线 浏览 238 03-17

被拐35年团圆 重逢瞬间儿子劝慰泪崩母亲:重新开始

封面新闻 浏览 10635 07-23

桑乔替补登场又被换下,埃梅里:这不是惩罚,而是战术决定

懂球帝 浏览 327 10-28

“弟弟妹妹”突然杀到,宗馥莉接班不易

智谷趋势 浏览 3408 07-15

小S和吴家争斗白热化!吴宗宪放话我女儿代言最多,已经准备起诉

萌神木木 浏览 1219 07-24

今年夏天“微透风”火出圈了,这样穿时髦松弛又减龄

LinkFashion 浏览 6404 07-04

小米SU7 Ultra量产版刷新纽北量产电动车圈速纪录

网易汽车 浏览 513 06-11

股权传承落定 娃哈哈正式迈入“宗馥莉时代”

看看新闻Knews 浏览 564 08-28

SRM理工学院发布:文本到视频生成技术演进图谱

科技行者 浏览 324 11-09

郑丽文出席联合祭祖大典:盼未来中华儿女不再自相残杀

海峡导报社 浏览 296 01-02

普京:俄方已无兴趣等待乌从其占领区撤出

每日经济新闻 浏览 271 12-29

稳居无创产检检测赛道第二,双三类证在手,安诺优达三度闯关港股|港E声

时代周报 浏览 146 04-22

百奥赛图实控人持股三成大额负债,亏损超15亿元图科创募资

权衡财经 浏览 4164 08-12

内娱最癫综艺,又出来「作妖」了

娱乐圈笔娱君 浏览 197 04-10

卡萨金娜更新社媒:我只想抱抱阿尼西莫娃

懂球帝 浏览 5077 07-14

阚清子官宣怀孕后,纪凌尘被扒出跟阚清子的合照

小徐讲八卦 浏览 15095 07-26

知情人:泽连斯基会晤中并未断然拒绝"领土交换"提议

上观新闻 浏览 568 08-20

“胖改”路上,永辉超市阵痛加剧

斑马消费 浏览 5352 07-16

BBC两高管宣布辞职 特朗普:他们试图"介入总统选举"

红星新闻 浏览 335 11-11

特朗普披露斡旋俄乌动机:担心自己死后无法上天堂

澎湃新闻 浏览 593 08-21
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11