关闭广告

大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等开源

机器之心Pro2025-09-01 12:00:01224人阅读

机器之心报道

机器之心编辑部

清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源RLinf:首个面向具身智能的“渲训推一体化”大规模强化学习框架。



人工智能正在经历从 “感知” 到 “行动” 的跨越式发展,融合大模型的具身智能被认为是人工智能的下一发展阶段,成为学术界与工业界共同关注的话题。

在大模型领域,随着 o1/R1 系列推理模型的发布,模型训练的重心逐渐从数据驱动的预训练 / 后训练转向奖励驱动的强化学习(Reinforcement Learning, RL)。OpenAI 预测强化学习所需要的算力甚至将超过预训练。与此同时,能够将大规模算力高效利用的 RL infra 的重要性也日益凸显,近期也涌现出一批优秀的框架,极大地促进了该领域的发展。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特斯拉新车Model Y L官宣,预计售价约40万元

中国基金报 浏览 3907 07-17

企业老总提议给自己发200万固定月薪 被投资人"手撕"

每日经济新闻 浏览 4834 08-10

昔日"水果贵族"价格大跳水 从300元一斤跌至9.9元3斤

极目新闻 浏览 249 08-25

中国男排主帅海宁现身全运会,称需建立不同于女排的培养体系

懂球帝 浏览 60 11-08

特朗普点名5国"禁毒不力" 遭当事国公开回怼

参考消息 浏览 227 09-17

曝巴萨不买断拉什福德要赔500万!若桑乔表现出色,曼联考虑续约

罗米的曼联博客 浏览 193 09-09

华晨宇绯闻女友黑料被扒?牵扯黄晓明

清风品历史 浏览 6014 08-05

向太曝关之琳头婚被骗,男方摆酒钱都未结算,难怪关美人情路大胆

不八卦会死星人 浏览 166 09-20

谷歌AI实现类人判断解决系统偏见问题

科技行者 浏览 57 11-04

泡泡玛特市值破4000亿港元,王宁放话:今年营收300亿很轻松

节点财经 浏览 255 08-21

经济观察报:深圳4-4卓尔涉5000万的假球,没赢是李铁不想输

懂球帝 浏览 105 10-17

美联航一航班在北京起飞时着火 发动机或严重损坏

鲁中晨报 浏览 4634 05-28

美媒:苏-57与F-22或在阿拉斯加空域首次正面相遇

环球网资讯 浏览 284 08-16

黄杨钿甜“天价耳环”后复出!低调现身横店拍戏,遭网友强烈抵制

萌神木木 浏览 303 08-20

董秘也“打短工”?道通科技董秘上任5个月即离任

华夏时报 浏览 72 11-01

百度暗藏了一支1200人的劲旅

虎嗅APP 浏览 267 08-25

特朗普宣称要“解放美国首都”:先派800人 不够再加

澎湃新闻 浏览 1534 08-13

48岁郭品超回山东老家割麦子,开三蹦子逛大集,网友:接地气!

娱乐白名单 浏览 5026 07-31

男子离婚冷静期毒杀儿女 事前带娃吃饭称"最后的狂欢"

极目新闻 浏览 282 08-20

12年之后再进亚洲杯八强!中国台北成功复仇约旦

体坛周报 浏览 8035 08-12

IBM最新量子算法,运行速度提升约10倍,带动AMD市值暴涨近2000亿

DeepTech深科技 浏览 85 10-27
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11