关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro2025-10-13 12:00:02100人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

色彩凝聚笔尖,描绘双唇明眸之美

时尚COSMO 浏览 68 10-30

咖啡品牌门店"0元购"火爆:排号超千单 取餐超4小时

每日经济新闻 浏览 2237 07-11

备战期间做到吃饱睡好不打游戏了吗?杨瀚森:还是打了两把游戏

懂球帝 浏览 3026 07-16

迟来的深情比草贱!具俊晔拿手机平板天天守大S墓地被说太会表演

南南说娱 浏览 8919 07-28

推动人工智能等产学研融合——中国移动广西公司联合共青团广西区委、多所高校出实招

环球网资讯 浏览 7586 08-10

甘肃再通报"幼儿血铅异常":天水市委书记、市长被立案

央视新闻客户端 浏览 7789 07-21

特朗普与普京将在阿拉斯加会晤 泽连斯基被指可能参会

环球网资讯 浏览 9311 08-10

她连上5次春晚,私下却和恩师同居怀孕被骗流产

律便利 浏览 104 10-15

今日热点:易烊千玺感谢人民子弟兵;万妮达严浩翔冠军导师……

伊周潮流 浏览 6502 08-02

新财年临近,美政府“停摆”风险加剧,白宫指示联邦机构准备裁员计划

环球网资讯 浏览 152 09-29

凌晨家长不在家孩子被抽血 家长:几日后孩子仍头晕

极目新闻 浏览 7784 08-08

"特泽会"前英首相指导泽连斯基:感谢特朗普 穿西装

鲁中晨报 浏览 307 08-20

国产自主研发喷气式飞行背包进入小批量生产阶段

IT之家 浏览 68 11-06

4战狂胜266分!韩旭14+8四川全运女篮大胜辽宁 头名进八强

醉卧浮生 浏览 44 11-11

伊拉克一超市突发大火 近50人死亡

央视新闻客户端 浏览 4090 07-18

淘宝闪购饿了么官宣八位城市骑士代言人:从骑手到骑士,我们为我们代言!

雷峰网 浏览 222 08-26

伊姐周日热推:电视剧《完美的救赎》;电视剧《书卷一梦》......

伊周潮流 浏览 4953 06-23

中科院举办出版座谈会,以科学家精神引领科技创新高质量发展

澎湃新闻 浏览 10388 07-26

乌克兰代表团抵达日内瓦 与英法德官员举行会谈

环球网资讯 浏览 31 11-24

礼来下调Zepbound减肥药现金价格,最低至每月299美元,股价下挫1%

华尔街见闻官方 浏览 20 12-02

包头人才引进被举报中止1年 再招入围名单与此前一致

大风新闻 浏览 3582 07-05
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11