关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro2026-04-22 12:00:0132人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

这是要摊牌?冯德莱恩对华最狠抨击”藏着啥?

浏览 8669 07-14

“启迪系”股权大拍卖,“医药大佬”江琎10亿接盘启迪药业!

野马财经 浏览 4534 07-17

纳瓦罗收获个人中网首胜

体坛周报 浏览 229 09-29

大搞权钱交易和家族式腐败 湖北省委原书记蒋超良被诉

扬子晚报 浏览 158 03-17

姚期智:“AI+量子”将极大拓展人类计算能力边界

文汇报 浏览 367 09-22

《以法之名》大结局烂尾!6人被判死刑,2人无期,5人有期

电和影 浏览 6316 07-10

瓜帅:我确信塞门约很出色;进10球表明了我们对对手的尊重

懂球帝 浏览 192 01-13

中美关税再延90天,特朗普真实目的暴露,中国成了大赢家?

北向财经 浏览 8950 08-13

大国放大招,交割日要注意了

大猫财经Pro 浏览 126 01-08

2025未来科学大奖获奖名单公布,七位科学家分享2000万元奖金

网易科技报道 浏览 2317 08-06

亚历山大:我要感谢雷霆让我做自己&感谢队友 这里有最棒的篮球

直播吧 浏览 3777 07-17

锡安复出生涯首次替补18+6 鹈鹕送公牛9战第8败吉迪11+7+5

醉卧浮生 浏览 183 12-15

租下公立医院后 原副县长非法集资近7亿直至“爆雷”

中国新闻周刊 浏览 519 08-27

以色列总理内塔尼亚胡因食物中毒接受治疗

澎湃新闻 浏览 6204 07-22

程潇脸肿了引发“整容”质疑,粉丝甩出直拍澄清

小椰的奶奶 浏览 4527 07-20

中国 / 世界的冠军:比亚迪 2025 年上半年累计销售 2,145,954 辆

IT之家 浏览 7857 07-30

首个多模态工业信号基座模型FISHER,权重已开源,来自清华&上交

机器之心Pro 浏览 4067 07-24

足不出国享顶尖耳蜗 全球听力巨头落户博鳌乐城

看看新闻Knews 浏览 5552 07-12

星光伴我心,不朽迷影佳作今晚点亮大银幕!

幕味儿 浏览 226 12-19

果然没让人失望,比亚迪汉L 5月销量升至11048台

车市速递 浏览 435 06-08

6名大学生殒命,涉事企业却曾是安全“典范”

虎嗅APP 浏览 8697 07-26
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11