关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro2026-04-22 12:00:0127人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

从短剧到漫剧,快手的内容大生意

定焦One 浏览 221 11-11

联合国对达成加沙地带停火协议表示欢迎

极目新闻 浏览 282 10-09

丹麦后悔在格陵兰岛部署F-35战机:美国或断供零部件

红星新闻 浏览 216 01-29

31岁女子为嫁"高富帅"男友与母亲互殴 男方父母发声

极目新闻 浏览 410 10-02

WTA最新世界排名:萨巴伦卡继续领跑,斯瓦泰克第三,郑钦文第六

直播吧 浏览 7914 07-14

比亚迪固态电池要来!有望明年试生产

优视汽车 浏览 139 02-21

“iPhone或永远不会在美国生产,两款重磅新机将靠中国”

观察者网 浏览 610 08-12

72岁患癌老人办生前告别式 四十多名宾客来到现场发言

极目新闻 浏览 289 10-23

东方甄选辟谣孙东旭离职传闻:休假中,没离职!

雷科技 浏览 451 08-23

男子带病妻跑车 三个月收到200多张鼓励纸条贴满车顶

极目新闻 浏览 755 07-16

印度空军仅剩36架米格-21战机将全部退役

环球时报国际 浏览 329 09-23

未来在哪?隆戈:AC米兰目前没有计划引进拉比奥特

直播吧 浏览 375 08-20

谁敢相信她45岁了?大女主从不受限

界外编辑部 浏览 1316 07-25

续航最高470km 长安凯程V919上市售8.99万元起

网易汽车 浏览 7728 06-27

上海双雄克星!艾曼3战独造5球,助攻双响后被队友“擦鞋”

奥拜尔 浏览 225 11-06

特朗普称俄为"纸老虎" 普京回应

央视新闻客户端 浏览 202 10-04

博士学历女厅官袭燕被双开:违规收受礼金、消费卡

红星新闻 浏览 207 01-15

官方:刘易斯-库克内侧副韧带受伤,将缺席新赛季初段的比赛

懂球帝 浏览 4295 07-26

今世缘:存货逐年攀升至逾50亿元 净利润增速放缓或未达预期

金证研 浏览 5138 07-17

加沙"空投箱"被指成"夺命箱" 已有多人不幸被砸中身亡

红星新闻 浏览 522 08-12

跳楼身亡医生丈夫:事发前一天报警 我还说别不当回事

观威海 浏览 2846 08-06
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11