关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro2025-10-13 12:00:02276人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

新款阿维塔12实车首曝光 华为靳玉志评其脱胎换骨

网易汽车 浏览 196 01-20

莫迪连续四次拒接特朗普来电 印度硬刚美国关税大棒

第一财经资讯 浏览 550 08-29

橙色最抢眼:苹果 iPhone 17 / Pro 系列机模颜色阵容曝光

IT之家 浏览 1927 07-30

迈阿密国际官方发海报纪念梅西加盟两年:正在创造的历史

直播吧 浏览 2685 07-16

山姆上架好丽友,中产不干了

虎嗅APP 浏览 1098 07-13

汉肯·萨缪尔森的两年任期 为沃尔沃开了什么方子?

网易汽车 浏览 317 09-13

20亿,小红书顶流要IPO了

投资家 浏览 3984 07-17

芦哲:联邦巡回法院裁定特朗普征收IEEPA对等关税违法—海外周报

首席经济学家论坛 浏览 418 09-02

卫星通信将在更多领域落地 “宇宙级”大机遇来了

上观新闻 浏览 316 09-20

稀土是啥?为啥是中国王牌?

混知财经 浏览 224 10-13

小米汽车再出事故!

电动知家 浏览 8071 07-12

洛里昂vs布雷斯特:姆沃戈、马肯戈首发,迪纳-埃宾贝、阿若克出战

懂球帝 浏览 269 10-20

纯电续航215km 全新阿尔法T5增程版10月底将上市

网易汽车 浏览 292 10-12

董璇自曝离婚内幕!谈前夫高云翔出轨落泪,坦言一辈子忘不了

萌神木木 浏览 4462 07-18

勒布朗对你而言是父亲的形象?欧文:我只有一个父亲 疯狂的问题

直播吧 浏览 4632 07-13

欧锦赛芬兰半场15投10中下起三分雨 半场57-40领先格鲁吉亚

直播吧 浏览 321 09-11

智驾出事网暴车企?权威人士:不赖车企,司机还要被三重“追责”

小李车评李建红 浏览 2989 07-26

格力高管发文回应小米空调“10年免费包修”

中国基金报 浏览 351 09-20

当年最红的女明星,“孤苦伶仃”?

Yuki女人故事 浏览 208 01-10

女子被判向出轨丈夫公开道歉15天 道歉视频引万人围观

大风新闻 浏览 202 01-16

奇才甩掉霍姆斯斯玛特韦斯利后薪资降了2123万 已俯冲到了联盟倒4

直播吧 浏览 9457 07-22
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11