关闭广告

LLM 仅靠自身就能增强推理？SePT 给出简洁在线自训练范式

机器之心Pro2026-04-22 12:00:01156人阅读

本文第一作者李梦琦为香港中文大学（深圳）计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作，并在香港中文大学（深圳）孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里，多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号，只使用模型自身生成的答案进行自训练，是否仍然能够提升推理能力？是的！SePT（Self-evolving Post-Training）给出肯定答案，简洁的自训练方法，可在数学推理任务准确率直升10个点！

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

续航超600km 起亚EV4 Hatchback或引入国内

车质网浏览 9796 07-04

“叫不醒”的董璇，比谁都清醒

娱乐圈笔娱君浏览 7822 08-14

马斯克＂星舰＂在试飞前测试时发生巨大爆炸

财联社浏览 9975 06-20

精彩推荐

五菱开年礼购指定新能源车型立享购置税补贴

网易汽车浏览 284 01-01

伊朗警告：特朗普别自以为是阿亚拟建走廊将成＂坟墓＂

澎湃新闻浏览 620 08-11

离婚后的孙怡，住80平小屋，吃饭靠点外卖

萱小蕾o 浏览 434 08-17

安世中国：已建立充足成品与在制品库存，能稳定持续满足客户订单需求

澎湃新闻浏览 337 11-03

专家:美对委行动或成未来对付其他＂不听话国家＂的先例

澎湃新闻浏览 263 01-05

早报｜特斯拉将接入 DeepSeek 和豆包/李斌回应蔚来新车定价：活下去最重要/哈苏重磅新机定档

爱范儿浏览 537 08-23

联手梅西！阿根廷名记埃杜：德保罗将加盟迈阿密国际，签约4年

直播吧浏览 4927 07-17

智元精灵G2新一代工业级交互式具身作业机器人发布

IT之家浏览 364 10-16

被封杀7年，范冰冰身边亲密男人不离不弃20年？

书雁飞史oh 浏览 2448 07-16

喜马拉雅烟花秀引争议新华社、人民日报接连发声

21世纪经济报道浏览 577 09-22

太阳为何会剧烈爆发？70年之谜终获解答

网易科技报道浏览 539 08-22

真的壕亚马尔获赠一价值40万欧的黄金钻石专属项链，造型为LY

直播吧浏览 9525 07-13

霍家主母显气度：一代卖船供学二代稳大局三代全颜面，四代无人及

不八卦会死星人浏览 283 01-26

联合国报告认定以色列在加沙地带犯下种族灭绝罪

央视新闻客户端浏览 403 09-17

植物医生IPO：“丐版”薇诺娜？

锦缎研究院浏览 6833 07-25

吴千语施伯雄逛街被偶遇，勾肩同行幸福甜蜜，有说有笑松弛感拉满

扒虾侃娱浏览 340 10-26

功能卡片自定/语控升级捷途山海T2 OTA全新升级

网易汽车浏览 529 05-10

这一天：杨幂蚂蚁腰无敌了，赵丽颖生图抗打，陈坤咋长这样了

娱乐圈笔娱君浏览 265 01-16

永辉超市减持红旗连锁，套现上亿元

红星资本局浏览 296 01-27

50+姐姐的穿搭小心机：不装嫩不扮老，这样穿才显贵又舒服

静儿时尚达人浏览 3188 06-23

李斌透露：蔚来ES8五座版7月发布！大五座SUV市场要变天了？

优视汽车浏览 67 05-28

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-11