关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro2025-10-13 12:00:02377人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

广东惜败巴西!杨溢王浩然大爆发,王少杰顶内线,徐昕杜锋争执!

篮球资讯达人 浏览 4784 07-29

俄外交部:乌方对和平解决冲突“缺乏兴趣”

环球网资讯 浏览 298 11-16

预售41.68万起 蔚来旗舰SUV全新ES8来了

网易汽车 浏览 540 08-23

美以对伊朗动武后 欧洲主要国家的谨慎态度引发美不满

澎湃新闻 浏览 252 03-03

马斯克遭特斯拉股东集体起诉 本人怒斥发起律师"人渣"

红星新闻 浏览 1733 08-07

E句话| 林依晨前男友被判刑了?

仙女事件簿 浏览 114 05-06

基金收费大变革!浮动费率时代来了,打响基民利益保卫战

深蓝财经 浏览 5836 07-25

部分陆海空基战略重器等将首次展示

新华社 浏览 477 08-20

特朗普同意停火两周

极目新闻 浏览 188 04-08

45岁董璇自曝想生二胎,妈妈称要尊重男方

萌神木木 浏览 8262 08-10

业内独家无孔真全面屏!努比亚Z80 Ultra获认证:支持90W快充

快科技 浏览 412 09-29

外媒:印度签署约70亿美元合同采购97架国产“光辉”战斗机

环球网资讯 浏览 402 09-27

厦门"因基因被解聘"女子:前夫实名举报只想我当主妇

极目新闻 浏览 484 09-26

甲骨文业绩不及预期,资本开支比预期多约150亿美元,盘后重挫超10%

华尔街见闻官方 浏览 241 12-11

中国新能源汽车渗透率58.37%创历史新高

大象新闻 浏览 337 10-13

36岁清华毕业生再战高考:查分预计无缘清华北大医学院

红星新闻 浏览 3595 06-26

越南最高领导层"扩员"了 干部的层级架构被大幅修改

中国新闻周刊 浏览 472 09-20

被拐35年团圆 重逢瞬间儿子劝慰泪崩母亲:重新开始

封面新闻 浏览 10638 07-23

已知第三个 外星系不明物体造访太阳系

新华社 浏览 1903 07-05

57岁马尔蒂尼依然保持绝佳身材,米体:长期坚持锻炼并注重饮食

直播吧 浏览 7565 07-31

刘浩存的现偶适配度,1000%

时尚COSMO 浏览 2812 06-12
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11