关闭广告

大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等开源

机器之心Pro2025-09-01 12:00:01223人阅读

机器之心报道

机器之心编辑部

清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源RLinf:首个面向具身智能的“渲训推一体化”大规模强化学习框架。



人工智能正在经历从 “感知” 到 “行动” 的跨越式发展,融合大模型的具身智能被认为是人工智能的下一发展阶段,成为学术界与工业界共同关注的话题。

在大模型领域,随着 o1/R1 系列推理模型的发布,模型训练的重心逐渐从数据驱动的预训练 / 后训练转向奖励驱动的强化学习(Reinforcement Learning, RL)。OpenAI 预测强化学习所需要的算力甚至将超过预训练。与此同时,能够将大规模算力高效利用的 RL infra 的重要性也日益凸显,近期也涌现出一批优秀的框架,极大地促进了该领域的发展。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

鲁伟鼎掌权!600亿万向信托高管“洗牌”

独角金融 浏览 234 08-20

宗泽后朋友圈“利益熏心”,替小三惋惜,骂长女复仇“小肚鸡肠”

不八卦会死星人 浏览 7728 07-26

葡体中场:约克雷斯的50球不好填补 卖最佳球员是葡体历史一部分

直播吧 浏览 7891 07-30

美国父亲在家喝酒将2岁女儿留车内致身亡 入狱前自杀

红星新闻 浏览 46 11-09

慕尼黑车展秀肌肉,“赛力斯动力”携超级增程技术抢滩海外市场

上游新闻 浏览 197 09-11

果园8.8元"偷橘子":一晚卖几百斤 抓人的狗都累瘫了

红星新闻 浏览 89 11-25

国联民生:做产业最友好的投行

券商中国 浏览 222 08-22

破了AI/AR 眼镜众筹记录的Halliday开启国内预售,要给你“隐形的智能”

硅星人 浏览 3000 07-28

罗永浩谈西贝事件:不反对预制菜 但受不了假装现做

中国日报 浏览 165 09-14

官方辟谣“昆明车祸致131死”

昆明信息港 浏览 7311 07-22

PPC平台打造 全新奥迪Q5L高功率版年内上市

车质网 浏览 104 10-10

千百惠后事公布,北京举行告别仪式

南方都市报 浏览 249 08-22

世体:因无力立即支付德保罗转会费,迈阿密国际选择先租借他

懂球帝 浏览 4494 07-31

国庆健康出行提示请查收!衣食住行全攻略

人民网 浏览 137 09-30

印度时隔五年恢复向中国公民发放旅游签证 外交部回应

澎湃新闻 浏览 9789 07-24

外媒:以军突袭巴勒斯坦比尔宰特大学

环球网资讯 浏览 165 09-23

用19种语言24小时为学生服务,院士吴志强展示“硅基”的吴志强

澎湃新闻 浏览 262 08-21

巴拿马1-1危地马拉,桑蒂斯先拔头筹,卡洛斯-哈维扳平

懂球帝 浏览 186 09-09

浙江一男子泳池跳水时颈椎严重受伤不治身亡 家属发声

新民晚报 浏览 75 10-26

八大国家队世界杯进球榜:克洛泽16球第1,大罗第2,梅西第3

懂球帝 浏览 115 10-13

雷军发起小米YU7版本更名投票:标准版绝非“丐版”

界面新闻 浏览 6640 08-12
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11