关闭广告

全新合成框架SOTA:强化学习当引擎,任务合成当燃料

量子位2025-10-02 00:00:02129人阅读

AntResearchNLP团队 投稿
量子位 | 公众号 QbitAI

下一步,大模型应该押注什么方向?

蚂蚁通用人工智能中心自然语言组联合香港大学自然语言组(后简称“团队”)推出PromptCoT 2.0,要在大模型下半场押注任务合成



实验表明,通过“强起点、强反馈”的自博弈式训练,PromptCoT 2.0可以让30B-A3B模型在一系列数学代码推理任务上实现新的SOTA结果,达到和DeepSeek-R1-0528, OpenAI o3, Gemini 2.5 Pro等相当的表现。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

热门主题ETF表现强劲,业界提示过度投机风险

券商中国 浏览 238 08-25

金鸡奖竞争太激烈!杨幂被曝落选女配,大粉暗示受《酱园弄》连累

萌神木木 浏览 167 09-26

王晶曝赵文卓梅艳芳分手原因,意外牵扯出古天乐

阿废冷眼观察所 浏览 4199 08-13

上海校园餐背后的供应商,越挖越让人心惊!

功夫财经 浏览 178 09-22

玉渊谭天:中国抗战阅兵以来 日本砸560亿日元搞公关

玉渊谭天 浏览 169 08-28

杭州网友打算自驾去青海:从杭州到合肥开了14个小时

鲁中晨报 浏览 163 10-02

击球区来了,坐等洽洽蓄力起跳

市值Observation 浏览 252 08-27

视界大会后台社交名利场!欧豪起身主动接杨幂,剧组之间互相抱团

萌神木木 浏览 56 11-04

金正恩首次出席"大型多边外交活动" 女儿两度亮相

中国新闻周刊 浏览 202 09-07

标普纳指齐逼历史高位 “七巨头“财报将定调美股走向

智通财经 浏览 6722 07-21

以军称被扣押人员全部返还前不会停止打击哈马斯

新京报 浏览 71 10-29

上半年利润同比“腰斩” 全聚德关闭多家亏损门店

中国商报 浏览 3635 07-16

俄白联合军演两名美军军官"意外现身" 白俄防长:可随意参观

环球网资讯 浏览 161 09-16

上海首个"无人驾驶"出租车正式运营 起步价14元3公里

澎湃新闻 浏览 4574 08-02

第80万台乐道L90下线 7月底上市即交付 覆盖140城试驾

网易汽车 浏览 6185 07-26

增速保持中部第一!湖北想挤进全国外贸十强省,还要多久?

时代周报 浏览 282 08-22

年轻一代的社交,为什么这么拧巴了?

虎嗅APP 浏览 239 08-22

原来做自媒体的“成功心法”都是同一个

黎贝卡的异想世界 浏览 93 10-29

费德勒正式官宣出席上海大师赛!期待已久的表演赛终于来了

网球之家 浏览 288 08-11

影像新势力狂卷IFA2025:大疆/影石/猛玛彻底杀疯了!

雷科技 浏览 186 09-09

一个没选!CBA选秀大会:辽宁第37顺位也选择弃权

直播吧 浏览 8096 07-26
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11