关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro2026-04-22 12:00:01155人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

金星归国路全被堵死,近照一出“原形毕露”

老吴教育课堂 浏览 2771 07-28

秋天外套不需要准备太多,但一定要拥有一件风衣,洒脱又百搭

静儿时尚达人 浏览 434 09-30

女儿幼儿园被打 家长报警查监控有上百条殴打幼童片段

大风新闻 浏览 8045 08-07

价值研究所|特斯拉、华为、小米入局,家用充电桩龙头迎来“突围”之战

中国基金报 浏览 400 09-26

44岁还在踢,西班牙前国脚古伊萨加盟球员生涯第16家俱乐部

懂球帝 浏览 9220 07-30

国产GPU厂商燧原科技科创板IPO获受理 拟融资60亿

网易财经 浏览 299 01-23

被指拒动用冻结俄资产援乌系因不想得罪美国 日本否认

环球时报国际 浏览 307 12-11

全球最大直驱型漂浮式风电机组主轴轴承“洛阳造”

大象新闻 浏览 4232 07-12

选错方向少赚一倍!医药基金首尾业绩差距逾120%

国际金融报 浏览 1355 07-30

山西80亩林地征地补偿价次次作假 "受指示"估价1348万

大风新闻 浏览 3626 07-16

601689,实控人套现8.8亿

第一财经资讯 浏览 438 09-11

全车三排Nappa真皮包覆 全新别克GL8陆尊座舱信息

网易汽车 浏览 10266 08-02

兰克尔-泽:5-1的比分是我没想到的,下一场比赛我想赢下成都

懂球帝 浏览 4099 08-10

美公司掀创纪录股票回购潮

国际金融报 浏览 553 08-12

电车销量涨不动?油车打响“销量保卫战”

少数派报告Report 浏览 308 12-14

巴黎人报:出于保险,恩里克半场就换下了努诺-门德斯

懂球帝 浏览 303 11-27

2天挨4 针,韩国皮肤科,挤满“特种兵医美”的中国人

每日人物 浏览 306 10-13

民警夜访爆料人家庭当地称"双方交流平和" 当事人回应

极目新闻 浏览 626 08-23

康师傅换帅!创始人之子接棒CEO,去年薪酬937万元

中国基金报 浏览 248 12-19

牛弹琴:“可怜”的泽连斯基 又被特朗普“戏弄”了

上游新闻 浏览 372 10-18

中国长安汽车集团领导班子亮相 最新100家央企名录来了

21世纪经济报道 浏览 49446 07-30
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11