关闭广告

全新合成框架SOTA:强化学习当引擎,任务合成当燃料

量子位2025-10-02 00:00:02281人阅读

AntResearchNLP团队 投稿
量子位 | 公众号 QbitAI

下一步,大模型应该押注什么方向?

蚂蚁通用人工智能中心自然语言组联合香港大学自然语言组(后简称“团队”)推出PromptCoT 2.0,要在大模型下半场押注任务合成



实验表明,通过“强起点、强反馈”的自博弈式训练,PromptCoT 2.0可以让30B-A3B模型在一系列数学代码推理任务上实现新的SOTA结果,达到和DeepSeek-R1-0528, OpenAI o3, Gemini 2.5 Pro等相当的表现。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

投顾罚单再现!两家机构为何顶风作案?

国际金融报 浏览 4362 07-16

多个品牌双11集体上调金价 每克已破1300元

潇湘晨报 浏览 219 11-12

老鹰124-112魔术豪取10连胜,沃克41分,杰伦约翰逊三双,班凯罗13中3

懂球帝 浏览 111 03-17

697分选临床医学,我是怎么和这个专业和解的?

时代周报 浏览 5731 08-11

BaaS方案售20.8万起 蔚来ET5/ET5T远空套装版上市

网易汽车 浏览 180 12-19

向经典致敬 斯柯达推出110 R数字化概念车

车质网 浏览 306 09-28

女演员黄璐官宣恋情,晒出多张合照

话娱论影 浏览 818 08-11

舒淇再获关注,黎明称其为“高攀不起”的存在

何嗀爱捕渔 浏览 17463 07-26

台湾回应美方所提芯片制造"五五分"构想:不会答应

环球时报国际 浏览 401 10-02

标配激光雷达、磁流变悬架 深蓝L06预售13.99万元起

网易汽车 浏览 257 11-01

黄仁勋刚说服特朗普放行H20芯片 结果被美议员"背刺"

南风窗 浏览 5019 08-07

威马、高合、天际等车企接连倒闭,这些品牌的车主怎么办?

优视汽车 浏览 300 09-25

伊姐元旦热推:电视剧《人之初》;电视剧《轻年》......

伊周潮流 浏览 171 01-03

女人过了50岁,穿衣掌握好了这4个简单套路,轻松穿出高级感

静儿时尚达人 浏览 459 08-18

闪购让淘宝和拼多多活跃度拉开距离,便宜外卖仍将持续

晚点LatePost 浏览 388 08-27

以军行动双线升级 胡塞武装、哈马斯高层遭精准打击

极目新闻 浏览 301 08-31

一所名校被AI干倒闭了

快刀财经 浏览 369 09-10

韩网误认沈佳润为财阀千金 编造其父以名命城

陈意小可爱 浏览 443 08-12

利空突袭!凌晨,全线大跌!

券商中国 浏览 196 12-16

萨里:我执教过6场罗马德比只输1场,那也是我记忆最深的一场

懂球帝 浏览 346 09-21

奥迪全新RS6 Avant被发现在西班牙路测 空力套件盖不住

CLauto酷乐汽车 浏览 6114 07-14
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11