关闭广告

大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等开源

机器之心Pro2025-09-01 12:00:01393人阅读

机器之心报道

机器之心编辑部

清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源RLinf:首个面向具身智能的“渲训推一体化”大规模强化学习框架。



人工智能正在经历从 “感知” 到 “行动” 的跨越式发展,融合大模型的具身智能被认为是人工智能的下一发展阶段,成为学术界与工业界共同关注的话题。

在大模型领域,随着 o1/R1 系列推理模型的发布,模型训练的重心逐渐从数据驱动的预训练 / 后训练转向奖励驱动的强化学习(Reinforcement Learning, RL)。OpenAI 预测强化学习所需要的算力甚至将超过预训练。与此同时,能够将大规模算力高效利用的 RL infra 的重要性也日益凸显,近期也涌现出一批优秀的框架,极大地促进了该领域的发展。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

搭VLA大模型 全新蓝山智能进阶版将上市

网易汽车 浏览 184 12-22

今年上半年,具备组合辅助驾驶功能的乘用车新车占比已提升至62.1%

财闻 浏览 374 09-09

英特尔路线图曝光:2028 年 Titan Lake CPU 放弃 P 核

IT之家 浏览 2773 07-17

共和党议员反水!特朗普支持的加密监管法案遭遇重大挫败,众议院表决失败

华尔街见闻官方 浏览 4750 07-16

“房东税”要来了?专家解读

网易财经 浏览 430 08-20

梦回乔丹时代!公牛将自13年以来首次使用带红色细条纹的黑色球衣

直播吧 浏览 8615 08-06

报道称中方曾向进入领海日护卫舰发射炮弹 外交部回应

政知新媒体 浏览 498 08-12

马德兴:足协要先选技术总监,然后再让技术总监负责选帅

懂球帝 浏览 6826 07-21

2026首个巡回赛惨案诞生,萨巴伦卡化身早餐外卖员用时47分钟下班

网球之家 浏览 187 01-07

博主:新加坡裁判塔基将执法上海德比,曾助国足晋级12强赛

懂球帝 浏览 1892 08-07

15岁小将道曼:能完成阿森纳一线队首秀无比自豪,这只是一个开始

直播吧 浏览 1980 07-26

罗志恒:特朗普“对等关税2.0”有哪些变化?为什么?影响几何?

首席经济学家论坛 浏览 7067 08-07

控股股东拟出让超1亿股!川股德龙汇能筹划控制权变更 今年股价涨幅近60%

红星资本局 浏览 254 10-27

官方再通报"715万修牛郎织女雕塑"事件:多人已获刑

新京报 浏览 2001 07-17

陈浩民夫妇滞留阿联酋 妻子:人生第二次收到轰炸警报

极目新闻 浏览 153 03-03

博主:咪咕要求CBA独家版权并介意和担心抖音介入,但篮协主张非独家

懂球帝 浏览 191 12-24

卡德罗夫突发溺水事故 被紧急施救送医后情况稳定

环球网 浏览 1189 07-27

豪华品牌溢价权名存实亡,国内豪车定价谁说了算?

速度计 浏览 10139 07-23

伊姐元旦热推:电视剧《人之初》;电视剧《轻年》......

伊周潮流 浏览 171 01-03

因空管员睡着 法国航班在空中滞留一小时

参考消息 浏览 332 09-18

风水轮流转!赵薇75岁母亲近况被曝光

通鉴史智 浏览 489 08-17
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11