关闭广告

全新合成框架SOTA:强化学习当引擎,任务合成当燃料

量子位2025-10-02 00:00:02285人阅读

AntResearchNLP团队 投稿
量子位 | 公众号 QbitAI

下一步,大模型应该押注什么方向?

蚂蚁通用人工智能中心自然语言组联合香港大学自然语言组(后简称“团队”)推出PromptCoT 2.0,要在大模型下半场押注任务合成



实验表明,通过“强起点、强反馈”的自博弈式训练,PromptCoT 2.0可以让30B-A3B模型在一系列数学代码推理任务上实现新的SOTA结果,达到和DeepSeek-R1-0528, OpenAI o3, Gemini 2.5 Pro等相当的表现。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

记者:哥伦比亚小将马丁内斯的未来将在几天内敲定

懂球帝 浏览 43 04-22

84岁老太被大女儿带出养老院盗取40万存款 老人起诉了

大风新闻 浏览 421 08-16

卫报:西汉姆是老板沙利文的一言堂,缺乏监督也不尊重专业知识

懂球帝 浏览 307 09-29

阿奇姆彭遭成都球迷种族歧视,队长王上源发文声援

懂球帝 浏览 242 11-01

白人女子被美国特工当街射杀 死前对峙说"我不生你气"

环球网资讯 浏览 208 01-11

特朗普扬言:美国已经变成了一个真正的联合国

参考消息 浏览 182 12-29

金九银十冲刺期:中国车企最新销量与目标完成率同步披露

汽车族杂志 浏览 280 10-10

加沙遇难记者人数已超各主要战争之和

澎湃新闻 浏览 9587 08-13

吉比特狂赚5.69亿!创始人卢竑岩分红独揽1.28亿!

包不同 浏览 196 11-01

京东做酒旅,比外卖安静

电商在线 浏览 6696 07-28

特朗普:希望今年见金正恩 他领导的国家前景光明

每日经济新闻 浏览 460 08-27

AI生成内容开始强制打上“电子水印”,虚假信息能有效杜绝吗

澎湃新闻 浏览 409 09-01

联合国认定以色列在加沙实施"种族灭绝" 外交部回应

外交部网站 浏览 400 09-18

若昂-佩德罗:没有母亲就没有我今天,希望和帕尔默取得更多成就

直播吧 浏览 3186 07-15

雷佳音塌房?央媒严厉发声,一点体面都不给

冷紫葉 浏览 2339 07-13

59岁巩俐近照曝光,和法国丈夫约会几乎无交流,下巴胖出三层肉

萌神木木 浏览 5099 08-08

黄金有关税收新政落地首周,市场各方反应如何?

中国商报 浏览 208 11-09

李湘没想到,前夫王岳伦竟走了另一条“上坡路”

暮云晨记 浏览 2894 07-10

期待!克劳福德:库里和锡安有兴趣明年夏天参加我的半职业联赛

直播吧 浏览 7895 08-13

华为路由 12 月升级 HarmonyOS 6 系统,支持 AI 绿色上网 2.0

IT之家 浏览 223 10-29

4500亿果链龙头狂赚115亿,潮汕富豪父女身家超800亿

21世纪经济报道 浏览 230 11-03
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11