关闭广告

全新合成框架SOTA:强化学习当引擎,任务合成当燃料

量子位2025-10-02 00:00:02361人阅读

AntResearchNLP团队 投稿
量子位 | 公众号 QbitAI

下一步,大模型应该押注什么方向?

蚂蚁通用人工智能中心自然语言组联合香港大学自然语言组(后简称“团队”)推出PromptCoT 2.0,要在大模型下半场押注任务合成



实验表明,通过“强起点、强反馈”的自博弈式训练,PromptCoT 2.0可以让30B-A3B模型在一系列数学代码推理任务上实现新的SOTA结果,达到和DeepSeek-R1-0528, OpenAI o3, Gemini 2.5 Pro等相当的表现。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

宏和科技一季报利润大增354%!AI驱动电子布狂飙背后,300倍PE能否持续?

时代周报 浏览 160 04-22

海昌智能IPO:“母子”共同“闯关”,重大关联交易或成拦路虎

览富财经网 浏览 277 01-27

莱因克尔、希勒和理查兹:阿森纳会挑战冠军,但很难赢得冠军

懂球帝 浏览 567 08-12

特朗普:将与哈佛大学达成"令人难以置信的"协议

澎湃新闻 浏览 9181 06-22

陈小春在沈阳开演唱会,被东北观众感动到流泪

小娱乐悠悠 浏览 291 11-25

国际乒联最新排名:孙颖莎&林诗栋各单项第一,张本智和第四

直播吧 浏览 4199 08-12

俄方:美英决定"推举"前乌军总司令扎卢日内为乌总统

环球网资讯 浏览 7566 07-30

印度空难客机两个黑匣子均已找到

浏览 8196 08-20

英伟达专供中国芯片被指安"后门" 媒体:细思极恐

极目新闻 浏览 1031 08-11

李在明:韩美贸易谈判僵持 美不能给韩带来灾难性后果

新京报 浏览 282 10-28

不知道衣服如何选择和搭配?夏季试试这些造型,美得毫不费力

静儿时尚达人 浏览 449 09-06

记者:蒋圣龙、阿苏埃参加了申花赛前最后一练,阿马杜缺席

懂球帝 浏览 418 09-21

债市回调!机构称长期配置仍有性价比

国际金融报 浏览 520 08-19

画面披露 外媒:以色列军方称摧毁伊朗数十个军事目标

环球网资讯 浏览 8973 06-18

林子祥和学生结婚,78岁开演唱会,依然一票难求

犀利辣椒 浏览 387 10-25

纯电奔驰GLC发布,明年将会国产六座车型

autocarweekly 浏览 417 09-08

解码基金“擒牛术”!从同花顺到新易盛,三波牛市验证三大选股核心逻辑

券商中国 浏览 293 01-13

"兔子警官"入围最美浙警 曾因执勤视频在网络上走红

环球网资讯 浏览 280 12-21

赛力斯联手字节打造"赛豆" 首款跨界车年内推出

网易汽车 浏览 75 06-02

透露动态!陈梦备战全运会即将回归赛场,坦言自己是ESFP人格

乒谈 浏览 4263 07-21

智己LS9上市32.28万起 两个Ultra都是高配

网易汽车 浏览 297 11-14
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11