关闭广告

大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等开源

机器之心Pro2025-09-01 12:00:01392人阅读

机器之心报道

机器之心编辑部

清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源RLinf:首个面向具身智能的“渲训推一体化”大规模强化学习框架。



人工智能正在经历从 “感知” 到 “行动” 的跨越式发展,融合大模型的具身智能被认为是人工智能的下一发展阶段,成为学术界与工业界共同关注的话题。

在大模型领域,随着 o1/R1 系列推理模型的发布,模型训练的重心逐渐从数据驱动的预训练 / 后训练转向奖励驱动的强化学习(Reinforcement Learning, RL)。OpenAI 预测强化学习所需要的算力甚至将超过预训练。与此同时,能够将大规模算力高效利用的 RL infra 的重要性也日益凸显,近期也涌现出一批优秀的框架,极大地促进了该领域的发展。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

第121期:46.30

炒基蛋 浏览 10281 07-29

"孪生兄弟"歼-35、歼-35A亮相九三阅兵

南方都市报 浏览 365 09-04

招兵买马!美职联夏窗当地时间7月24日已开启,8月21日关窗

直播吧 浏览 1395 07-25

8岁女孩被邻居带去长江游泳溺亡 其家人起诉索赔109万

大风新闻 浏览 409 08-23

法国宣布推出M51.3潜射弹道导弹 称其为“重大里程碑”

环球网资讯 浏览 249 10-30

青海刻石被证实为秦代遗物 37个字与秦始皇有关

第一财经资讯 浏览 402 09-16

政治豪赌失败 法国总理贝鲁下台

澎湃新闻 浏览 370 09-10

有报道称特朗普拟带团访华 商务部回应

财联社 浏览 4040 07-04

硅谷投资人盛赞特斯拉人形机器人:将令人忘掉特斯拉造过车

澎湃新闻 浏览 168 01-16

特斯拉向马斯克授予290亿美元股票奖励

盖世汽车 浏览 2401 08-06

贷款炒金的"黄金赌徒"后悔了:有人3天亏掉2个月工资

第一财经资讯 浏览 233 10-27

今年以来最亮彗星现身天际,它的名字叫“莱蒙”

新华社 浏览 279 10-20

51岁卡瓦纳罗正式应聘国足主帅!已将材料交给中国足协

念洲 浏览 387 09-09

博主称火锅店存在阴阳菜单后收到威胁短信 目前已搬家

上游新闻 浏览 2304 08-05

iPhone 17 Pro真机疑现身街头!外观竟有大变化?

雷科技 浏览 10033 07-30

率先挺进决赛!张本智和4-1贾哈 将战王楚钦与莫雷加德的胜者

直播吧 浏览 394 08-11

特斯拉陶琳:认真对待电池回收,提取 90% 废料投入新电池生产

IT之家 浏览 505 08-11

小吧译言家 双10号驾到!库尼亚与姆贝莫将如何重塑曼联战术体系

直播吧 浏览 5546 07-29

迪巴拉昨日前往荷兰现场观看F1,并在社媒上晒出照片

直播吧 浏览 291 09-02

插混加持 新款捷途旅行者C-DM本月17日上市

车质网 浏览 212 11-10

乌武装部队总参谋部通报:乌俄一天交战近250次

环球网资讯 浏览 242 11-11
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11