关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro2025-10-13 12:00:02373人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

专家:特朗普步步紧逼 日本很难丢1.13万亿美债"核弹"

澎湃新闻 浏览 5585 07-13

美俄航天局高层将会晤 聚焦国际空间站与联合任务

界面新闻 浏览 8369 07-30

美国将打造全球首座可移动核反应堆工厂,落户“曼哈顿计划”旧址

IT之家 浏览 394 10-15

阿里领投爱诗科技4.3亿新融资,今年阿里已投资超7个AI初创项目

钛媒体APP 浏览 485 09-11

媒体:柯克遇袭风波升级 美国的情况令人感觉不寒而栗

新民周刊 浏览 475 09-16

苹果发布iPhone 17e:起售价4499元,支持实体+eSIM卡组合

澎湃新闻 浏览 239 03-03

美国大选尘埃落定,特朗普胜选后的未知与挑战

浏览 3820 07-14

三幅字画涉刑被拍卖 其中徐悲鸿"奔马图"起拍价4762万

极目新闻 浏览 380 10-21

网易严选宠物全球创新研发中心启用,与SGS战略合作升级

观察者网 浏览 157 04-22

俄罗斯索契机场暂停起降航班

界面新闻 浏览 9558 08-11

在这场中美AI竞赛中,我们的互联网大厂正在迅速边缘化

锦缎研究院 浏览 10259 08-07

人工智能时代如何深化跨区域知识产权保护协作,嘉定这场论坛进行了探讨

上观新闻 浏览 289 10-21

曼市的天空到底啥色?曼市双雄开赛3轮加起来共7分,下轮曼市德比

直播吧 浏览 412 09-01

香港65公斤黄金被劫价值超半亿 西九龙重案组深夜通报

极目新闻 浏览 482 09-19

五一消费爆发,新茶饮“爆单”!霸王茶姬5天狂揽1600万人次

国际金融报 浏览 130 05-09

DeepSeek线上模型版本升级至V3.1

澎湃新闻 浏览 434 08-20

上海科技功臣吕西林:坚守抗震研究40载,为生命和家园筑防线

上观新闻 浏览 490 08-26

德总理披露:普京同意两周内与泽连斯基会晤

环球网资讯 浏览 586 08-19

媒体:石平被中方制裁以后的反应 其实是一种绝望

新民周刊 浏览 710 09-11

全新奔驰GLB谍照曝光 有望明年亮相

车质网 浏览 504 05-13

湖媒模拟三方交易:迎嘴哥+罗威 列多种10人轮换方式助力詹东双皇

颜小白的篮球梦 浏览 1131 08-09
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11