关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro2025-10-13 12:00:02378人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

DeepSeek首轮融资超500亿元，梁文锋自掏200亿

节点财经浏览 18 06-17

郭德纲现身岳云鹏演唱会，为徒儿站场

喜欢历史的阿繁浏览 5749 07-28

下周，沪指能否收复3674点？这两大板块的表现很关键

每经牛眼浏览 7760 08-10

精彩推荐

加拿大罗杰斯杯大师赛怎么就成为顶尖选手的鸡肋了呢？

网球之家浏览 9459 07-25

穿裙子的李宇春，需要向谁解释吗？

时尚COSMO 浏览 7837 07-02

新势力半年暴涨，压力给到自己

汽车K线浏览 5015 07-08

阿里正在开发开发最新AI编程工具「秒悟Meoo」

三言科技浏览 211 03-17

大模型与机器人互促共进的当下，他们想要共筑世界的“新终端”

文汇报浏览 858 07-28

高温来袭小心中暑，4步急救法请收好

人民网浏览 7156 07-08

美媒：特朗普自以为握着所有底牌但多国正在转向北京

澎湃新闻浏览 2463 07-16

霍伊伦德死心考虑离开曼联！为世界杯不得不走人，拒绝交换谢什科

罗米的曼联博客浏览 8740 08-07

薅了5.2万，大肥肉

越女事务所浏览 2419 07-17

特朗普威胁：我们知道哈梅内伊的藏身之处

澎湃新闻浏览 10569 06-19

新款捷尼赛思G80最高涨价3.32万元，是自信还是冒险？

车宇世界浏览 557 05-19

摩根大通一线调研：微软领先所有人至少10光年，生态整合能力非常强大！

华尔街见闻官方浏览 301 01-16

这条裙子，今年悄悄火遍全网，冬天穿好有氛围

黎贝卡的异想世界浏览 285 11-30

20万真满血华为纯电SUV！全新岚图知音正式上市

功夫财经浏览 530 08-29

腹部被击中又何妨？赵睿19+6+4成后场尖刀男篮最强持球杀招是他

颜小白的篮球梦浏览 5016 08-06

郑中基疑似新恋情，和异性现身游乐场

素素娱乐浏览 263 02-24

白玉兰风波一月后，37岁刘亦菲再传喜讯

TVB的四小花浏览 10285 07-27

“1元买壳”10个月后，北大医药新老板徐晰人突遭刑拘！

野马财经浏览 348 10-31

乐道汽车：L90 配备来自蔚来十年技术累积的 4D 舒适领航功能

IT之家浏览 2613 07-13

俄称拦截飞往莫斯科市的乌克兰无人机

北青网-北京青年报浏览 8163 07-22

特斯拉车顶维权女子败诉曾致特斯拉损失1.7亿元订单

极目新闻浏览 7489 07-12

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-11