关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro2025-10-13 12:00:02378人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

加拿大罗杰斯杯大师赛怎么就成为顶尖选手的鸡肋了呢?

网球之家 浏览 9459 07-25

穿裙子的李宇春,需要向谁解释吗?

时尚COSMO 浏览 7837 07-02

新势力半年暴涨,压力给到自己

汽车K线 浏览 5015 07-08

阿里正在开发开发最新AI编程工具「秒悟Meoo」

三言科技 浏览 211 03-17

大模型与机器人互促共进的当下,他们想要共筑世界的“新终端”

文汇报 浏览 858 07-28

高温来袭小心中暑,4步急救法请收好

人民网 浏览 7156 07-08

美媒:特朗普自以为握着所有底牌 但多国正在转向北京

澎湃新闻 浏览 2463 07-16

霍伊伦德死心考虑离开曼联!为世界杯不得不走人,拒绝交换谢什科

罗米的曼联博客 浏览 8740 08-07

薅了5.2万,大肥肉

越女事务所 浏览 2419 07-17

特朗普威胁:我们知道哈梅内伊的藏身之处

澎湃新闻 浏览 10569 06-19

新款捷尼赛思G80最高涨价3.32万元,是自信还是冒险?

车宇世界 浏览 557 05-19

摩根大通一线调研:微软领先所有人至少10光年,生态整合能力非常强大!

华尔街见闻官方 浏览 301 01-16

这条裙子,今年悄悄火遍全网,冬天穿好有氛围

黎贝卡的异想世界 浏览 285 11-30

20万真满血华为纯电SUV!全新岚图知音正式上市

功夫财经 浏览 530 08-29

腹部被击中又何妨?赵睿19+6+4成后场尖刀 男篮最强持球杀招是他

颜小白的篮球梦 浏览 5016 08-06

郑中基疑似新恋情,和异性现身游乐场

素素娱乐 浏览 263 02-24

白玉兰风波一月后,37岁刘亦菲再传喜讯

TVB的四小花 浏览 10285 07-27

“1元买壳”10个月后,北大医药新老板徐晰人突遭刑拘!

野马财经 浏览 348 10-31

乐道汽车:L90 配备来自蔚来十年技术累积的 4D 舒适领航功能

IT之家 浏览 2613 07-13

俄称拦截飞往莫斯科市的乌克兰无人机

北青网-北京青年报 浏览 8163 07-22

特斯拉车顶维权女子败诉 曾致特斯拉损失1.7亿元订单

极目新闻 浏览 7489 07-12
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11