关闭广告

大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等开源

机器之心Pro2025-09-01 12:00:01395人阅读

机器之心报道

机器之心编辑部

清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源RLinf：首个面向具身智能的“渲训推一体化”大规模强化学习框架。

人工智能正在经历从 “感知” 到 “行动” 的跨越式发展，融合大模型的具身智能被认为是人工智能的下一发展阶段，成为学术界与工业界共同关注的话题。

在大模型领域，随着 o1/R1 系列推理模型的发布，模型训练的重心逐渐从数据驱动的预训练 / 后训练转向奖励驱动的强化学习（Reinforcement Learning, RL）。OpenAI 预测强化学习所需要的算力甚至将超过预训练。与此同时，能够将大规模算力高效利用的 RL infra 的重要性也日益凸显，近期也涌现出一批优秀的框架，极大地促进了该领域的发展。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

26款名爵MG7限时11.69万起好玩才是必杀技

网易汽车浏览 209 01-08

万亿级雅下水电工程启动，会成为A股牛市启动的导火索吗？

郭施亮浏览 8021 07-22

“大空头”伯里：英伟达“GPU战略”或使中国在AI竞赛中领先美国

IT之家浏览 190 12-23

精彩推荐

暑期档最大黑马，搞笑又扎人，四个小妖怪给“边角料”们上了一课

最爱酷影视浏览 1511 08-06

哈马斯将致信特朗普提议加沙停火60天

界面新闻浏览 310 09-23

湖南一营地因纠纷被倒土封路游客挖土2小时才离开

潇湘晨报浏览 5066 07-23

张坤、葛兰、刘彦春、谢治宇等明星基金经理调仓动向曝光！

私募排排网浏览 733 07-28

中甲第18轮裁判：李会刚执法延边龙鼎vs辽宁铁人

懂球帝浏览 4478 07-26

江西＂鸡排哥＂爆火：每天一二十个镜头对着我没有负担

极目新闻浏览 349 10-01

知情人士：乌克兰要俄全额赔偿战时损失

红星新闻浏览 457 08-20

世锦赛4×100米：中国队0.04秒之差无缘决赛，牙买加失误出局

全景体育V 浏览 328 09-21

努诺-门德斯：每个人都是团队的一部分，这是我们关键所在

懂球帝浏览 3377 07-13

知名折扣店好特卖被指大量闭店曾4年开960家

每日经济新闻浏览 186 12-29

退休警察举报11年前交通事故：当年鉴定疑未勘验实车

红星新闻浏览 248 11-04

平台上线、标准立项，香港为何积极构筑RWA基础设施？

国际金融报浏览 7614 08-10

胡玫探望90岁焦晃，反应迟钝说话拖沓，90岁还抽烟，裤子破洞抢镜

兴史兴谈浏览 6994 08-04

大家都在重提安全沃尔沃却选择沉默

网易汽车浏览 6471 06-28

泽连斯基：俄对乌再次发动大规模空袭　

新华社浏览 426 08-22

打回原形！没人救得了傅首尔，麦琳都比她清醒

林轻吟浏览 456 08-12

35家A股上市银行年度分红密集落地

商业观察杂志社浏览 906 07-15

10年期美债拍卖意外疲软，多个指标显示需求不佳

华尔街见闻官方浏览 6078 08-07

银行股首份半年报来了！常熟银行首次中期分红拟派现近5亿，社保基金重仓

时代周报浏览 5471 08-09

芯片ETF爆发！沪指突破靠什么？

国际金融报浏览 5495 08-13

合计亏超22亿元，牧原、温氏一季度双双转亏

中国基金报浏览 43 04-22

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-11