关闭广告

LLM 仅靠自身就能增强推理？SePT 给出简洁在线自训练范式

机器之心Pro2026-04-22 12:00:01153人阅读

本文第一作者李梦琦为香港中文大学（深圳）计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作，并在香港中文大学（深圳）孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里，多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号，只使用模型自身生成的答案进行自训练，是否仍然能够提升推理能力？是的！SePT（Self-evolving Post-Training）给出肯定答案，简洁的自训练方法，可在数学推理任务准确率直升10个点！

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

委内瑞拉国防部长：已做好捍卫祖国的准备

海外网浏览 255 12-17

1-7月份全国城镇调查失业率平均值为5.2%

财联社浏览 511 08-15

希腊航运巨头28岁女继承人死于虫咬误诊细节披露

新民周刊浏览 519 09-19

精彩推荐

全球牛肉“通胀”，中国市场价格为何“独稳”

北京商报浏览 295 11-10

网传居然之家汪林朋跳楼…坐实了？

摩登财经浏览 6762 07-28

夏天最好看的6只包！照着搭美出新高度

LinkFashion 浏览 8 06-17

本赛季前5轮三支英超升班马共拿19分，比上赛季三队快一倍

直播吧浏览 374 09-22

德天空记者：德甲球队为莱斯特中场恩迪迪提供邀约，估价1500万欧

直播吧浏览 2736 07-15

丰田新款Land Cruiser FJ最新消息曝光

乐选爱车浏览 249 10-25

多基金公司接到股债恒定ETF系统改造要求新产品最快或于11月上报

财联社浏览 420 09-29

马年“春晚”排成这样，我断言：观众看完，会站起来鼓掌

皮皮电影浏览 298 01-13

仝卓表弟获救了！照片曝光头发已被剃光，从求助到救出不到24小时

萌神木木浏览 259 11-27

中金黄金股价一度跌超7% 子公司矿厂致6名大学生溺亡

网易财经浏览 4136 07-24

马斯克预言美国破产，中国又出高招！

浏览 8206 07-14

若昂-内维斯卖便宜了？坎波斯：我们为他支付的价格很合理

懂球帝浏览 260 12-29

媒体：有关石破茂的流言或是三人在进行＂吹气球＂试验

新民晚报浏览 4892 07-25

当“光”成为AI的命门，曦智的“英伟达时刻”近了 | 对话沈亦晨

硅星人浏览 10221 07-28

罗马诺：加拉塔萨雷正和贝蒂斯就引进阿尔蒂米拉展开谈判

懂球帝浏览 256 02-05

东体：国足选帅推进慢，足协做不了主；热身邀请亚洲强队很难

懂球帝浏览 4546 07-30

继被曝出轨，央视换脸后，高亚麟再曝丑闻，法院出手强制执行

桑启红原浏览 5260 08-13

营销悍将赵长江加盟智界，放言智界V9三年内无对手！

车市红点浏览 287 01-14

号称帮HR节省70%沟通成本，智联招聘发布多智能体协同产品方案

电厂浏览 5056 07-28

欧美9国名校青年代表乘坐C919 体验中国制造新高度

环球网资讯浏览 2635 07-15

姜武：放心，天堂不会再有日本人了！

小娱乐悠悠浏览 410 09-18

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-11