关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro2026-04-22 12:00:0136人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

次节觉醒,杨瀚森半场8中3得9分6板1助3帽3失误,正负值-3

懂球帝 浏览 205 11-17

过气男神集体景区再就业?49岁郑国霖和马景涛“抢饭碗”,太卷

温柔娱公子 浏览 824 08-09

记者:罗马引进桑乔遇阻,球员经纪人索要1500万欧元佣金和遣散费

直播吧 浏览 5633 08-13

卡塔尔航空公司宣布陆续恢复中东多地航班

界面新闻 浏览 5109 07-01

缔造仙女梦的人,去了天堂继续缝制星光✨

黎贝卡的异想世界 浏览 183 01-21

现代IONIQ3即将全球首发 400V架构 定位小型SUV

汽车公告板 浏览 185 01-25

曼谷偶遇文咏珊,产子三个多月瘦得过分

八怪娱 浏览 206 01-16

陈芋汐谈第五次世锦赛:还是特别兴奋,希望有好的表现让自己满意

直播吧 浏览 7411 07-22

夏天别染这4个发色!我怕你白到发光!

Yuki女人故事 浏览 7012 06-09

破了AI/AR 眼镜众筹记录的Halliday开启国内预售,要给你“隐形的智能”

硅星人 浏览 3152 07-28

宇宙深处数百“小红点”身份曝光

网易科技报道 浏览 9916 07-31

跟队:切尔西将不会有正式主帅带队客战曼城

懂球帝 浏览 162 01-02

暑期档,危险了

斑马消费 浏览 6119 07-28

传祺向往M8宗师上市 补贴价24.99万元起

网易汽车 浏览 321 10-17

搭载第五代EA888 2.0T发动机 新款揽境5月27日上市

网易汽车 浏览 432 05-17

黄子韬陪徐艺洋试婚纱曝世纪婚礼!曾卖卫生巾20天赚5000万

娱乐白名单 浏览 6493 07-13

李湘机场照火了!身材又胖了一圈,喜感十足

柠檬有娱乐 浏览 317 09-21

从全球榜单看中国创新

海外网 浏览 183 01-07

儿子4岁被拐26年未找到 妈妈悬赏上海市区一套房寻子

新民晚报 浏览 465 08-20

今年冬天最流行的4组叠穿,让你美出新高度!

LinkFashion 浏览 151 11-16

小城大事:郑德诚风波解除,李秋萍为空降镇长

少女的烦恼 浏览 194 01-12
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11