关闭广告

大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等开源

机器之心Pro2025-09-01 12:00:01468人阅读

机器之心报道

机器之心编辑部

清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源RLinf:首个面向具身智能的“渲训推一体化”大规模强化学习框架。



人工智能正在经历从 “感知” 到 “行动” 的跨越式发展,融合大模型的具身智能被认为是人工智能的下一发展阶段,成为学术界与工业界共同关注的话题。

在大模型领域,随着 o1/R1 系列推理模型的发布,模型训练的重心逐渐从数据驱动的预训练 / 后训练转向奖励驱动的强化学习(Reinforcement Learning, RL)。OpenAI 预测强化学习所需要的算力甚至将超过预训练。与此同时,能够将大规模算力高效利用的 RL infra 的重要性也日益凸显,近期也涌现出一批优秀的框架,极大地促进了该领域的发展。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

网友反映企业偷排致农田污染后接到威胁电话 官方回应

潇湘晨报 浏览 5180 06-27

王岳伦晒一家三口照片,为“李湘被封号”假消息辟谣

素素娱乐 浏览 261 01-27

富豪们,究竟能生多少孩子!

说财猫 浏览 1912 07-18

多给2分钟来背锅?大帝25分钟20+6丢绝杀 马克西才该为失利担责

颜小白的篮球梦 浏览 342 11-01

配置提升 2026款丰田铂智3X将于今日上市

车质网 浏览 115 05-09

追梦21年奇瑞终上市,尹同跃身价直追王传福魏建军?

BT财经 浏览 487 09-10

湾芯展顶流新凯来:当“隐形基建”浮出水面

北京商报 浏览 323 10-17

收到地震预警后,到底要不要跑?

网易健康 浏览 3431 04-21

张兰回京仅三天连出四大决策,马筱梅直播拆台

秋别离 浏览 228 03-11

百度暗藏了一支1200人的劲旅

虎嗅APP 浏览 539 08-25

加沙局势不会立即全面升级 “20点计划”可能烂尾

上观新闻 浏览 326 11-01

已婚已育三年,朴信惠真的老了好多

娱人细品 浏览 276 01-20

媒体:马科斯刚就台湾问题表态 转头就与高市联合发声

新民周刊 浏览 63 05-31

法媒:阿什拉夫等伤员会前往慕尼黑,为队友加油助威

懂球帝 浏览 132 05-06

美国防部将提供“战斧”决定权交给总统

国际在线 浏览 327 11-02

彭昱畅恋上经纪人!堪称娱乐圈职场恋天花板

小椰的奶奶 浏览 83 05-28

春天野菜不知不识莫乱吃

人民网 浏览 10110 06-03

陈都灵、宋慧乔的短发美上热搜!春天想换发型一定不要错过这篇

LinkFashion 浏览 234 03-16

星光伴我心,不朽迷影佳作今晚点亮大银幕!

幕味儿 浏览 318 12-19

移植新款S63 AMG底盘动力,千匹奔驰600 Pullman

玩车改装分享 浏览 282 12-21

零食连锁被困愁城

海克财经 浏览 1941 07-31
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11