关闭广告

大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等开源

机器之心Pro2025-09-01 12:00:01466人阅读

机器之心报道

机器之心编辑部

清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源RLinf：首个面向具身智能的“渲训推一体化”大规模强化学习框架。

人工智能正在经历从 “感知” 到 “行动” 的跨越式发展，融合大模型的具身智能被认为是人工智能的下一发展阶段，成为学术界与工业界共同关注的话题。

在大模型领域，随着 o1/R1 系列推理模型的发布，模型训练的重心逐渐从数据驱动的预训练 / 后训练转向奖励驱动的强化学习（Reinforcement Learning, RL）。OpenAI 预测强化学习所需要的算力甚至将超过预训练。与此同时，能够将大规模算力高效利用的 RL infra 的重要性也日益凸显，近期也涌现出一批优秀的框架，极大地促进了该领域的发展。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

特朗普没想到，忠心“小弟”要叛变

浏览 8170 07-14

独家|我们与淘宝闪购管理层聊了聊增长的持续性问题

虎嗅APP 浏览 396 10-19

马斯克Neuralink新里程碑：12人植入，累计使用时长超1.5万小时

IT之家浏览 461 09-11

精彩推荐

＂韩国顶流＂被追缴200亿韩元税款：至少赚了1000亿韩元

新民周刊浏览 266 02-02

黄奕女儿，一句话戳穿黄奕的真实处境，她给所有星二代提了醒

温柔娱公子浏览 861 07-24

消失3年的国民男神，复出了

独立鱼浏览 877 07-16

拜仁官方：后卫斯塔尼希奇今日回归合练

懂球帝浏览 317 10-21

苹果第 12 代入门 iPad 曝料：明春发布，256GB 存储起步

IT之家浏览 3412 07-12

罕见病女生出生双腿无皮肤曾被指活不过2岁如今24岁

极目新闻浏览 589 09-09

英超：维拉3比1富勒姆取联赛首胜

体坛周报浏览 426 09-29

红色+棕色、蓝色+灰色，秋天最美的4组配色！

LinkFashion 浏览 371 09-02

3位厅干履新有人的前一任已升副省部级

鲁中晨报浏览 3202 07-28

波特：NBA当然有老詹这种训练狂但也有很多人拿了大合同就混日子

直播吧浏览 491 08-19

新智界R7/S7首发车外语音泊车功能，华为黑科技上车

只懂车浏览 478 08-24

从“画饼”到落地，苹果为何挑中阿斯顿・马丁？

汽车观察AUTO 浏览 524 05-20

媒体报道男子拒付52万婚宴食材款被诉当事人：遭网暴

澎湃新闻浏览 8766 08-11

不是价格战，是生存战：蔚来在L90上赌了一切

钛媒体APP 浏览 2793 07-12

普京的专机还没起飞美欧统一步调最低要求也不答应

掌青说历史浏览 764 08-11

Melody和林依晨，怎么不会老啊？

时尚COSMO 浏览 251 11-06

245万的房子被中介私自标价170万挂牌浙江业主怒了

FM93浙江交通之声浏览 341 10-25

“稳定币”概念爆火月余，牛股股东拟高位减持，合计套现或超11亿

时代周报浏览 5496 07-16

推广|| 被刘亦菲、辛芷蕾种草的宝藏单品，确实很好搭！

黎贝卡的异想世界浏览 362 10-22

韩特检组:尹锡悦试图通过无人机事件诱使朝鲜进攻韩国

界面新闻浏览 1162 07-05

新款Apple TV 4K被曝年内发布，首次搭载苹果自研蓝牙和Wi-Fi芯片

IT之家浏览 6643 08-06

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-11