关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪2025-07-14 12:00:014491人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

汪小菲带儿女到内蒙古,玥儿骑马他牵马

小杨侃事 浏览 4045 07-15

法国学者五味杂陈:法国技术明珠要被中国摘了

澎湃新闻 浏览 1659 07-12

“容嬷嬷”年轻时竟是校花?照片太惊艳了!

邵阳县融媒体中心 浏览 8184 07-13

中国父子在德国溺亡:6岁儿子坠湖后 父亲跳下船营救

红星新闻 浏览 1688 07-16

新官上任三把火,特朗普的第一把火会烧给谁?

浏览 1364 07-14

伊朗:将打击美国在中东地区的所有利益

财联社 浏览 5856 06-22

广汽埃安回应员工持股"爆雷"传闻:纯属恶意谣言

界面新闻 浏览 3410 06-18

"高考575分被赶出家门"尖子生已回家:有复读意愿

潇湘晨报 浏览 8373 07-12

欧尔班发文呼吁冯德莱恩辞职:是时候离开了

上观新闻 浏览 5943 07-10

杨少华灵前突发意外!前央视导演当场情绪失控

石场阿鑫 浏览 1080 07-15

140万保时捷在停车场凭空消失 调监控发现正驶往外省

掌上春城 浏览 767 07-15

江西14家农商行被罚款1333万,2位行长、8位副行长同时收罚单

湘财Plus 浏览 441 07-14

从市区大平层搬到郊区小院,花4年装出了一个让我“神完气足”的理想家

黎贝卡的异想世界 浏览 1418 07-03

太原动物园马匹脸部血肉模糊 网友质疑被抽打虐待

潇湘晨报 浏览 646 07-16

美媒:杜特尔特家族在菲中期选举中表现抢眼

环球网资讯 浏览 7794 05-15

如何区分流感和普通感冒?儿科专家详解流感12个疑问

网易健康 浏览 9740 12-26

2500km续航 风云A9L将于6月25日预售7月上旬上市

网易汽车 浏览 4238 06-23

赫尔松州政府大楼被导弹击中 乌方公布遭袭瞬间视频

国际在线 浏览 7311 06-07

拆解A股5轮牛市轮动规律后,我发现牛市翻倍并不难!

星图金融研究院 浏览 3550 07-16

地产深水区,透视房企穿越周期之道

锦缎研究院 浏览 4825 07-16

彻底不装了!杜星霖怒骂73岁张纪中,体力不行脾气大 约会一身臭汗

二妹扯娱 浏览 971 07-11
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11