关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro2025-10-13 12:00:02373人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

男童先天没有肛门：用小鸡鸡拉屎5年量少但次数多

南方都市报浏览 1260 07-12

阿里正把自己装进赛博分身

虎嗅APP 浏览 279 01-16

56岁解晓东黄山被偶遇，走路晃肩严重

观察鉴娱浏览 547 08-19

精彩推荐

专家：特朗普步步紧逼日本很难丢1.13万亿美债＂核弹＂

澎湃新闻浏览 5585 07-13

美俄航天局高层将会晤聚焦国际空间站与联合任务

界面新闻浏览 8369 07-30

美国将打造全球首座可移动核反应堆工厂，落户“曼哈顿计划”旧址

IT之家浏览 394 10-15

阿里领投爱诗科技4.3亿新融资，今年阿里已投资超7个AI初创项目

钛媒体APP 浏览 485 09-11

媒体:柯克遇袭风波升级美国的情况令人感觉不寒而栗

新民周刊浏览 475 09-16

苹果发布iPhone 17e：起售价4499元，支持实体+eSIM卡组合

澎湃新闻浏览 239 03-03

美国大选尘埃落定，特朗普胜选后的未知与挑战

浏览 3820 07-14

三幅字画涉刑被拍卖其中徐悲鸿＂奔马图＂起拍价4762万

极目新闻浏览 380 10-21

网易严选宠物全球创新研发中心启用，与SGS战略合作升级

观察者网浏览 157 04-22

俄罗斯索契机场暂停起降航班

界面新闻浏览 9558 08-11

在这场中美AI竞赛中，我们的互联网大厂正在迅速边缘化

锦缎研究院浏览 10259 08-07

人工智能时代如何深化跨区域知识产权保护协作，嘉定这场论坛进行了探讨

上观新闻浏览 289 10-21

曼市的天空到底啥色？曼市双雄开赛3轮加起来共7分，下轮曼市德比

直播吧浏览 412 09-01

香港65公斤黄金被劫价值超半亿西九龙重案组深夜通报

极目新闻浏览 482 09-19

五一消费爆发，新茶饮“爆单”！霸王茶姬5天狂揽1600万人次

国际金融报浏览 130 05-09

DeepSeek线上模型版本升级至V3.1

澎湃新闻浏览 434 08-20

上海科技功臣吕西林：坚守抗震研究40载，为生命和家园筑防线

上观新闻浏览 490 08-26

德总理披露：普京同意两周内与泽连斯基会晤

环球网资讯浏览 586 08-19

媒体：石平被中方制裁以后的反应其实是一种绝望

新民周刊浏览 710 09-11

全新奔驰GLB谍照曝光有望明年亮相

车质网浏览 504 05-13

湖媒模拟三方交易：迎嘴哥+罗威列多种10人轮换方式助力詹东双皇

颜小白的篮球梦浏览 1131 08-09

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-11