关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro2026-04-22 12:00:01156人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

五菱开年礼 购指定新能源车型立享购置税补贴

网易汽车 浏览 284 01-01

伊朗警告:特朗普别自以为是 阿亚拟建走廊将成"坟墓"

澎湃新闻 浏览 620 08-11

离婚后的孙怡,住80平小屋,吃饭靠点外卖

萱小蕾o 浏览 434 08-17

安世中国:已建立充足成品与在制品库存,能稳定持续满足客户订单需求

澎湃新闻 浏览 337 11-03

专家:美对委行动或成未来对付其他"不听话国家"的先例

澎湃新闻 浏览 263 01-05

早报|特斯拉将接入 DeepSeek 和豆包/李斌回应蔚来新车定价:活下去最重要/哈苏重磅新机定档

爱范儿 浏览 537 08-23

联手梅西!阿根廷名记埃杜:德保罗将加盟迈阿密国际,签约4年

直播吧 浏览 4927 07-17

智元精灵G2新一代工业级交互式具身作业机器人发布

IT之家 浏览 364 10-16

被封杀7年,范冰冰身边亲密男人不离不弃20年?

书雁飞史oh 浏览 2448 07-16

喜马拉雅烟花秀引争议 新华社、人民日报接连发声

21世纪经济报道 浏览 577 09-22

太阳为何会剧烈爆发?70年之谜终获解答

网易科技报道 浏览 539 08-22

真的壕亚马尔获赠一价值40万欧的黄金钻石专属项链,造型为LY

直播吧 浏览 9525 07-13

霍家主母显气度:一代卖船供学二代稳大局三代全颜面,四代无人及

不八卦会死星人 浏览 283 01-26

联合国报告认定以色列在加沙地带犯下种族灭绝罪

央视新闻客户端 浏览 403 09-17

植物医生IPO:“丐版”薇诺娜?

锦缎研究院 浏览 6833 07-25

吴千语施伯雄逛街被偶遇,勾肩同行幸福甜蜜,有说有笑松弛感拉满

扒虾侃娱 浏览 340 10-26

功能卡片自定/语控升级 捷途山海T2 OTA全新升级

网易汽车 浏览 529 05-10

这一天:杨幂蚂蚁腰无敌了,赵丽颖生图抗打,陈坤咋长这样了

娱乐圈笔娱君 浏览 265 01-16

永辉超市减持红旗连锁,套现上亿元

红星资本局 浏览 296 01-27

50+姐姐的穿搭小心机:不装嫩不扮老,这样穿才显贵又舒服

静儿时尚达人 浏览 3188 06-23

李斌透露:蔚来ES8五座版7月发布!大五座SUV市场要变天了?

优视汽车 浏览 67 05-28
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11