关闭广告

大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等开源

机器之心Pro2025-09-01 12:00:01466人阅读

机器之心报道

机器之心编辑部

清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源RLinf:首个面向具身智能的“渲训推一体化”大规模强化学习框架。



人工智能正在经历从 “感知” 到 “行动” 的跨越式发展,融合大模型的具身智能被认为是人工智能的下一发展阶段,成为学术界与工业界共同关注的话题。

在大模型领域,随着 o1/R1 系列推理模型的发布,模型训练的重心逐渐从数据驱动的预训练 / 后训练转向奖励驱动的强化学习(Reinforcement Learning, RL)。OpenAI 预测强化学习所需要的算力甚至将超过预训练。与此同时,能够将大规模算力高效利用的 RL infra 的重要性也日益凸显,近期也涌现出一批优秀的框架,极大地促进了该领域的发展。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

"韩国顶流"被追缴200亿韩元税款:至少赚了1000亿韩元

新民周刊 浏览 266 02-02

黄奕女儿,一句话戳穿黄奕的真实处境,她给所有星二代提了醒

温柔娱公子 浏览 861 07-24

消失3年的国民男神,复出了

独立鱼 浏览 877 07-16

拜仁官方:后卫斯塔尼希奇今日回归合练

懂球帝 浏览 317 10-21

苹果第 12 代入门 iPad 曝料:明春发布,256GB 存储起步

IT之家 浏览 3412 07-12

罕见病女生出生双腿无皮肤 曾被指活不过2岁如今24岁

极目新闻 浏览 589 09-09

英超:维拉3比1富勒姆取联赛首胜

体坛周报 浏览 426 09-29

红色+棕色、蓝色+灰色,秋天最美的4组配色!

LinkFashion 浏览 371 09-02

3位厅干履新 有人的前一任已升副省部级

鲁中晨报 浏览 3202 07-28

波特:NBA当然有老詹这种训练狂 但也有很多人拿了大合同就混日子

直播吧 浏览 491 08-19

新智界R7/S7首发车外语音泊车功能,华为黑科技上车

只懂车 浏览 478 08-24

从“画饼”到落地,苹果为何挑中阿斯顿・马丁?

汽车观察AUTO 浏览 524 05-20

媒体报道男子拒付52万婚宴食材款被诉 当事人:遭网暴

澎湃新闻 浏览 8766 08-11

不是价格战,是生存战:蔚来在L90上赌了一切

钛媒体APP 浏览 2793 07-12

普京的专机还没起飞 美欧统一步调最低要求也不答应

掌青说历史 浏览 764 08-11

Melody和林依晨,怎么不会老啊?

时尚COSMO 浏览 251 11-06

245万的房子被中介私自标价170万挂牌 浙江业主怒了

FM93浙江交通之声 浏览 341 10-25

“稳定币”概念爆火月余,牛股股东拟高位减持,合计套现或超11亿

时代周报 浏览 5496 07-16

推广|| 被刘亦菲、辛芷蕾种草的宝藏单品,确实很好搭!

黎贝卡的异想世界 浏览 362 10-22

韩特检组:尹锡悦试图通过无人机事件诱使朝鲜进攻韩国

界面新闻 浏览 1162 07-05

新款Apple TV 4K被曝年内发布,首次搭载苹果自研蓝牙和Wi-Fi芯片

IT之家 浏览 6643 08-06
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11