关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro2026-04-22 12:00:01153人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

全球牛肉“通胀”,中国市场价格为何“独稳”

北京商报 浏览 295 11-10

网传居然之家汪林朋跳楼…坐实了?

摩登财经 浏览 6762 07-28

夏天最好看的6只包!照着搭美出新高度

LinkFashion 浏览 8 06-17

本赛季前5轮三支英超升班马共拿19分,比上赛季三队快一倍

直播吧 浏览 374 09-22

德天空记者:德甲球队为莱斯特中场恩迪迪提供邀约,估价1500万欧

直播吧 浏览 2736 07-15

丰田新款Land Cruiser FJ最新消息曝光

乐选爱车 浏览 249 10-25

多基金公司接到股债恒定ETF系统改造要求 新产品最快或于11月上报

财联社 浏览 420 09-29

马年“春晚”排成这样,我断言:观众看完,会站起来鼓掌

皮皮电影 浏览 298 01-13

仝卓表弟获救了!照片曝光头发已被剃光,从求助到救出不到24小时

萌神木木 浏览 259 11-27

中金黄金股价一度跌超7% 子公司矿厂致6名大学生溺亡

网易财经 浏览 4136 07-24

马斯克预言美国破产,中国又出高招!

浏览 8206 07-14

若昂-内维斯卖便宜了?坎波斯:我们为他支付的价格很合理

懂球帝 浏览 260 12-29

媒体:有关石破茂的流言 或是三人在进行"吹气球"试验

新民晚报 浏览 4892 07-25

当“光”成为AI的命门,曦智的“英伟达时刻”近了 | 对话沈亦晨

硅星人 浏览 10221 07-28

罗马诺:加拉塔萨雷正和贝蒂斯就引进阿尔蒂米拉展开谈判

懂球帝 浏览 256 02-05

东体:国足选帅推进慢,足协做不了主;热身邀请亚洲强队很难

懂球帝 浏览 4546 07-30

继被曝出轨,央视换脸后,高亚麟再曝丑闻,法院出手强制执行

桑启红原 浏览 5260 08-13

营销悍将赵长江加盟智界,放言智界V9三年内无对手!

车市红点 浏览 287 01-14

号称帮HR节省70%沟通成本,智联招聘发布多智能体协同产品方案

电厂 浏览 5056 07-28

欧美9国名校青年代表乘坐C919 体验中国制造新高度

环球网资讯 浏览 2635 07-15

姜武:放心,天堂不会再有日本人了!

小娱乐悠悠 浏览 410 09-18
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11