关闭广告

全新合成框架SOTA:强化学习当引擎,任务合成当燃料

量子位2025-10-02 00:00:02357人阅读

AntResearchNLP团队 投稿
量子位 | 公众号 QbitAI

下一步,大模型应该押注什么方向?

蚂蚁通用人工智能中心自然语言组联合香港大学自然语言组(后简称“团队”)推出PromptCoT 2.0,要在大模型下半场押注任务合成



实验表明,通过“强起点、强反馈”的自博弈式训练,PromptCoT 2.0可以让30B-A3B模型在一系列数学代码推理任务上实现新的SOTA结果,达到和DeepSeek-R1-0528, OpenAI o3, Gemini 2.5 Pro等相当的表现。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

博主:此前杨瀚森屡屡被DNP时,很多当地球迷都要求退季票

懂球帝 浏览 292 12-29

广州一小区2年抓到60多条蛇 业主:每天出门提心吊胆

极目新闻 浏览 400 10-13

今日最难得,我们十一周年啦!

黎贝卡的异想世界 浏览 326 10-25

走失女童被找到后父亲首度发声:感谢1.2万个恩人

极目新闻 浏览 385 10-18

这个冬天《鬼怪》“解冻”得有些早

时尚COSMO 浏览 208 11-27

港股上市未满3个月,干了7年的期货公司董秘突然辞任

财通社 浏览 234 03-11

特朗普任命前真人秀演员为NASA临时局长

界面新闻 浏览 5514 07-11

费大厨招聘服务员要求"本科学历以下勿扰" 门店回应

扬子晚报 浏览 2071 07-05

刻在DNA里的绣艺,是绵长的家书

时尚COSMO 浏览 8299 06-18

转会费6500万!迪马:努涅斯加盟新月达协议,新月愿满足高薪要求

直播吧 浏览 1519 08-07

15件甜撩系睡衣!纯欲又少女,根本顶不住!

Yuki女人故事 浏览 4738 07-19

米尔纳:我看到若塔做过那个庆祝动作,我可能模仿得不太好

懂球帝 浏览 494 09-01

三门峡上新68辆新能源公交,全省首家“刷掌”乘车支付

大象新闻 浏览 1670 08-06

阶跃星辰姜大昕:Step 3是推理时代最适合应用的模型

网易科技报道 浏览 7527 07-26

上新|| 降温天不能错过的绝美毛衣,来了!

黎贝卡的异想世界 浏览 278 01-22

以总理发现情况不妙 坦克开进加沙后陷入前所未有孤立

文雅笔墨 浏览 481 09-18

京东:听劝,养车50亿补贴更名为“震骨价”

网易科技报道 浏览 510 08-12

帕拉西奥斯:张瑷晖是很好的球员,他需要更多的经验和自信

懂球帝 浏览 8192 07-28

机器人企业老总要200万月薪 被怒怼

每日经济新闻 浏览 3018 08-10

石平赴日留学后否认南京大屠杀 曾出书谈为何抛弃中国

环球时报国际 浏览 570 09-09

货车司机在高速服务区猝死 妻子:跑车4个月只回家2次

红星新闻 浏览 311 10-27
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11