关闭广告

大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等开源

机器之心Pro2025-09-01 12:00:01464人阅读

机器之心报道

机器之心编辑部

清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源RLinf:首个面向具身智能的“渲训推一体化”大规模强化学习框架。



人工智能正在经历从 “感知” 到 “行动” 的跨越式发展,融合大模型的具身智能被认为是人工智能的下一发展阶段,成为学术界与工业界共同关注的话题。

在大模型领域,随着 o1/R1 系列推理模型的发布,模型训练的重心逐渐从数据驱动的预训练 / 后训练转向奖励驱动的强化学习(Reinforcement Learning, RL)。OpenAI 预测强化学习所需要的算力甚至将超过预训练。与此同时,能够将大规模算力高效利用的 RL infra 的重要性也日益凸显,近期也涌现出一批优秀的框架,极大地促进了该领域的发展。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

蔚来全新ES8正式上市,起售价40.68万元

财经无忌 浏览 386 09-22

国产新能源还在内讧,福特CEO已经吓破胆了:能让我们全军覆没

小李车评李建红 浏览 286 11-07

美联储理事米兰再次呼吁加快降息,断言“潜在”通胀接近目标,称任期或延长

华尔街见闻官方 浏览 273 12-16

初秋“不露腿”也能穿得美:裤选长、裙及踝,优雅得体又应季

静儿时尚达人 浏览 390 10-06

黄仁勋:不必担心中国军方会使用英伟达芯片

环球网资讯 浏览 2935 07-15

下轮战丁俊晖!赵心童:对上晖哥输赢不太重要,观众看得开心就好

直播吧 浏览 2517 07-31

21岁小伙被骗缅甸用支付宝求救:有人遭体罚被搞到吐

潇湘晨报 浏览 4955 08-06

S家洗白失败!韩国综艺锤了小S忽视姐姐病情,推卸责任甩锅给大S

萌神木木 浏览 268 02-05

姚明将在今年开始正式领取NBA退休金,每月可领约1.3万人民币

懂球帝 浏览 384 10-13

币圈再度血流成河!比特币6月以来首次跌破10万大关,以太币暴跌10%

华尔街见闻官方 浏览 350 11-05

网坛名宿预测德约在澳网后退役,被六千名塞尔维亚球迷围攻

网球之家 浏览 310 11-03

宋浩然自曝净身出户,未争夺女儿抚养权

扒虾侃娱 浏览 426 09-08

“耳环风波”半年后 18岁黄杨钿甜首次发文

现代快报 浏览 243 11-11

13.98万起!比亚迪海狮06要替宋PLUS“扛大旗”

国际金融报 浏览 3887 07-26

理想i8碰撞测试争议背后的信任危机:安全是否该成为营销道具

车林外传 浏览 10185 07-31

两大巨头女掌舵人相继宣布卸任,跨国企业面临新一轮调整

第一财经资讯 浏览 352 10-01

迪士尼粉沸腾 smart"灵感梦幻号"再亮相

网易汽车 浏览 7593 07-07

何穗孕照被扒!和陈伟霆一举得男,超模都偏爱港男,生娃不办婚礼

萌神木木 浏览 324 10-18

22岁女医学生遭前男友杀害 临终遗言:我没有对不起你

大风新闻 浏览 295 01-13

今年靴子怎么穿?这个思路可以解决一半冬日搭配

黎贝卡的异想世界 浏览 265 12-05

《求是》杂志特约评论员:改善和稳定房地产市场预期

365财经plus 浏览 284 01-02
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11