关闭广告

全新合成框架SOTA:强化学习当引擎,任务合成当燃料

量子位2025-10-02 00:00:02359人阅读

AntResearchNLP团队 投稿
量子位 | 公众号 QbitAI

下一步,大模型应该押注什么方向?

蚂蚁通用人工智能中心自然语言组联合香港大学自然语言组(后简称“团队”)推出PromptCoT 2.0,要在大模型下半场押注任务合成



实验表明,通过“强起点、强反馈”的自博弈式训练,PromptCoT 2.0可以让30B-A3B模型在一系列数学代码推理任务上实现新的SOTA结果,达到和DeepSeek-R1-0528, OpenAI o3, Gemini 2.5 Pro等相当的表现。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

女子说"死了一晚上死了吗"男友跳车身亡 被判赔21万多

南方都市报 浏览 574 09-02

都体:小基耶萨确定将离开利物浦,预计他将重返意甲

懂球帝 浏览 6964 07-30

共绘人类的美好未来!全球AI影视作品征集活动在洛杉矶启动

上观新闻 浏览 491 08-24

杜克大学开创新型物联网控制语言,手机就能对话所有智能设备

科技行者 浏览 321 10-28

35岁男子回乡"崖下洞居" 创业失败家里没房欠银行35万

封面新闻 浏览 533 09-19

媒体:特朗普2.0亚洲"首秀" 重中之重还是与中国有关

上观新闻 浏览 329 10-27

A股利好来了!多只医药股发布消息

上观新闻 浏览 277 12-15

是时候考虑购买美国大豆了,为了“拴住”特朗普!

北向财经 浏览 310 10-27

我真的服了汪顺!老天爷到底给他关过哪扇窗啊?

小光侃娱乐 浏览 309 11-25

刚刚,DeepSeek梁文锋NSA论文、北大杨耀东团队ACL 2025最佳论文

机器之心Pro 浏览 4326 07-31

中国女排庄宇珊:我们今天在情绪上做的比较好,队友之间互相帮助

直播吧 浏览 5588 07-12

特朗普这次真的赢了 风卷残云一样绝杀欧盟七大佬

北回归线 浏览 619 08-21

中国一汽冲击500万年销目标

大象新闻 浏览 7121 08-06

工信部部长回应新能源汽车等行业非理性竞争:可能毁掉一个产业 绝不容忍

封面新闻 浏览 491 09-10

外卖三国杀补贴加码 外卖平台宣布订单量创新高

封面新闻 浏览 1125 07-13

外卖大战让奶茶店赚翻!香飘飘却还在求年轻人:泡我吧,求你了!

诗与星空 浏览 3771 07-16

我国科学家研发视觉麦克风:可“看”到《致爱丽丝》声音片段

IT之家 浏览 8008 08-06

留几手维护闫学晶翻车!嘲讽短视频用户自卑又敏感,网友呼吁封号

萌神木木 浏览 291 01-12

熊节:落实务实合作,全球南方亟需搭建多边平台|讲堂176-6⑤

文汇报 浏览 492 08-25

阳光电源:从全球第一到利润骤降,新能源龙头迎来换挡时刻

博望财经 浏览 125 05-09

CJ连续10年场均得分20+但从未进过全明星!利拉德为老队友鸣不平

直播吧 浏览 1312 07-25
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11