关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro2025-10-13 12:00:02282人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

日本30年期国债拍卖结果出炉 投标倍数为23年以来新低

财联社 浏览 6180 06-06

真我售后网点增至 815 家,GT8 Pro 将是同档“最香”旗舰机

IT之家 浏览 257 10-21

英特尔路线图曝光:2028 年 Titan Lake CPU 放弃 P 核

IT之家 浏览 2777 07-17

一澳航波音客机突发紧急情况 降落后被救援车辆包围

界面新闻 浏览 321 09-27

100坦克首次亮相 解读来了

环球时报新闻 浏览 381 09-04

生猪产业新生态:结构调整与种养结合,筑牢农业强国根基

一点财经 浏览 7642 07-27

特斯拉“连续5年保费”曝光:保险只要1900?比油车还便宜!

少数派报告Report 浏览 209 01-16

梅西创造完成美职联50球最快纪录,此前由约瑟夫和伊布保持

懂球帝 浏览 301 10-19

奔驰同意!支付超10亿元

大象新闻 浏览 187 12-24

高价墓地,突然卖不动了

智谷趋势 浏览 360 09-21

前球员:湖人时期的奥尼尔无法统治当今NBA;约基奇会是90年代的独角兽

懂球帝 浏览 200 12-11

海能技术上半年业绩亮眼:营收创中报新高 自主创新成果显著

侃见财经 浏览 6616 08-14

20万真满血华为纯电SUV!全新岚图知音正式上市

功夫财经 浏览 440 08-29

终于如愿了!上海签古德温补强一号位,战绩有望再突破!

篮球资讯达人 浏览 7922 07-21

61岁印度富婆被首富丈夫宠成少女 比女儿和儿媳都白嫩

照见古今 浏览 8737 08-08

首搭3块图灵AI芯片 小鹏G7预售23.58万元

网易汽车 浏览 431 06-13

79岁一代文艺女神走了:终生未婚,一辈子穿西装

世界音乐公号 浏览 305 10-13

陈伟霆透露何穗生产过程经历,坦言不太顺利

今古深日报 浏览 13 04-29

“亚洲巴菲特”,大手笔押注黄金

财通社 浏览 173 01-20

周冠宇忆英国站事故:对我也是打击很大的一次,好在人是平安回归

直播吧 浏览 2527 08-13

马卡:皇马将在国家德比展出巨型TIFO,彰显俱乐部的历史

懂球帝 浏览 251 10-26
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11