关闭广告

大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等开源

机器之心Pro2025-09-01 12:00:01395人阅读

机器之心报道

机器之心编辑部

清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源RLinf:首个面向具身智能的“渲训推一体化”大规模强化学习框架。



人工智能正在经历从 “感知” 到 “行动” 的跨越式发展,融合大模型的具身智能被认为是人工智能的下一发展阶段,成为学术界与工业界共同关注的话题。

在大模型领域,随着 o1/R1 系列推理模型的发布,模型训练的重心逐渐从数据驱动的预训练 / 后训练转向奖励驱动的强化学习(Reinforcement Learning, RL)。OpenAI 预测强化学习所需要的算力甚至将超过预训练。与此同时,能够将大规模算力高效利用的 RL infra 的重要性也日益凸显,近期也涌现出一批优秀的框架,极大地促进了该领域的发展。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

暑期档最大黑马,搞笑又扎人,四个小妖怪给“边角料”们上了一课

最爱酷影视 浏览 1511 08-06

哈马斯将致信特朗普 提议加沙停火60天

界面新闻 浏览 310 09-23

湖南一营地因纠纷被倒土封路 游客挖土2小时才离开

潇湘晨报 浏览 5066 07-23

张坤、葛兰、刘彦春、谢治宇等明星基金经理调仓动向曝光!

私募排排网 浏览 733 07-28

中甲第18轮裁判:李会刚执法延边龙鼎vs辽宁铁人

懂球帝 浏览 4478 07-26

江西"鸡排哥"爆火:每天一二十个镜头对着 我没有负担

极目新闻 浏览 349 10-01

知情人士:乌克兰要俄全额赔偿战时损失

红星新闻 浏览 457 08-20

世锦赛4×100米:中国队0.04秒之差无缘决赛,牙买加失误出局

全景体育V 浏览 328 09-21

努诺-门德斯:每个人都是团队的一部分,这是我们关键所在

懂球帝 浏览 3377 07-13

知名折扣店好特卖被指大量闭店 曾4年开960家

每日经济新闻 浏览 186 12-29

退休警察举报11年前交通事故:当年鉴定疑未勘验实车

红星新闻 浏览 248 11-04

平台上线、标准立项,香港为何积极构筑RWA基础设施?

国际金融报 浏览 7614 08-10

胡玫探望90岁焦晃,反应迟钝说话拖沓,90岁还抽烟,裤子破洞抢镜

兴史兴谈 浏览 6994 08-04

大家都在重提安全 沃尔沃却选择沉默

网易汽车 浏览 6471 06-28

泽连斯基:俄对乌再次发动大规模空袭 

新华社 浏览 426 08-22

打回原形!没人救得了傅首尔,麦琳都比她清醒

林轻吟 浏览 456 08-12

35家A股上市银行年度分红密集落地

商业观察杂志社 浏览 906 07-15

10年期美债拍卖意外疲软,多个指标显示需求不佳

华尔街见闻官方 浏览 6078 08-07

银行股首份半年报来了!常熟银行首次中期分红拟派现近5亿,社保基金重仓

时代周报 浏览 5471 08-09

芯片ETF爆发!沪指突破靠什么?

国际金融报 浏览 5495 08-13

合计亏超22亿元,牧原、温氏一季度双双转亏

中国基金报 浏览 43 04-22
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11