关闭广告

港科大广州校区突破大模型训练瓶颈:让AI学习像数学考试高效

科技行者2026-02-05 00:00:02275人阅读


这项由香港科技大学广州校区xLeaF实验室团队完成的研究于2026年2月发表在预印本平台,论文编号为arXiv:2601.23000v1。研究团队提出了一种名为Mano的全新优化器,能够大幅提升大型语言模型的训练效率,同时显著降低计算成本和内存消耗。

训练大型语言模型就像是在教授一个拥有数千亿个参数的超级大脑学习语言,这个过程需要消耗巨额的计算资源和电力。现有的训练方法就好比让学生用最笨拙的方式学习数学——要么只看到局部信息而忽视整体结构,要么过度追求完美而丢失了重要细节。当前最流行的AdamW优化器就像一个只会逐个检查每道题目的老师,完全忽略了题目之间的内在联系和整体规律。而另一种叫做Muon的优化器虽然能够统一处理所有维度的信息,但在这个过程中却丢失了宝贵的曲率信息,就像为了保持答题速度一致而忽略了题目的难易程度。

研究团队从一个全新的角度来思考这个问题。他们发现,传统的流形优化方法虽然在数学理论上很优美,但在实际的大模型训练中表现很差,这让很多研究者对这类方法失去了信心。然而,港科大的研究团队没有放弃,而是创新性地改造了这些方法。

他们的核心洞察是这样的

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

福建舰电磁弹射三连 专家:意义重大

新华社 浏览 398 09-23

篮协官宣:同意杨瀚森不参加男篮亚洲杯 将参加8月开拓者短训营

醉卧浮生 浏览 4358 07-25

消息人士:以军原计划在土耳其打击哈马斯高层

央视新闻客户端 浏览 404 09-12

名嘴:快船将酝酿大动作 两年后薪资空间巨大 或追逐字母哥

Emily说个球 浏览 9772 07-28

低调可靠!康利曾在3支球队单赛季至少350助攻150三分 历史第5人

直播吧 浏览 503 08-11

秋到没边的氛围感美甲,一眼心动

时尚COSMO 浏览 268 10-23

固态电池概念股掀涨停潮!国轩高科、先导智能领涨,上半年超六成企业业绩飘红

时代周报 浏览 470 09-02

汽车经销商为何越来越“艰辛”了?

汽车K线 浏览 542 05-27

“苹果官方闹乌龙”是个乌龙新闻:微博客户端bug导致与三星广告错位

快科技 浏览 9939 07-31

59岁高建法因病去世 曾自掏腰包500多万建抗战纪念馆

都市快报橙柿互动 浏览 7517 07-30

以战机血洗也门港口,胡塞导弹直插犹太心脏

浏览 6014 07-14

梓渝又翻车!正宫2号说他约P共同好友

ETtoday星光云 浏览 9626 07-25

抖音医疗认证创作者达7.1万,过去一年新增医疗科普内容超400万条

未来网 浏览 519 08-19

特朗普:从未与伊朗就“和平会谈”联系

财联社 浏览 7416 06-18

三型轮式两栖战车集中亮相 专家解析

环球网 浏览 383 09-04

第九届人单合一模式引领论坛举行 构建AI时代的智能交互生态

尺度商业 浏览 442 09-22

特朗普:不会允许以色列吞并约旦河西岸

界面新闻 浏览 469 09-26

甘肃一国企60多人多次或长期旷工 公司回应

潇湘晨报 浏览 5113 07-18

会打扮的中年女人,冬季穿搭靠这3个套路封神!保暖还时髦

静儿时尚达人 浏览 300 12-04

面见查尔斯后,哈里夫妇首度合体亮相

草莓解说体育 浏览 360 09-22

货不对版!京东国民好车陷「批量退订潮」;李想承认犯错,理想汽车将回归创业模式;黄仁勋内部讲话泄露:少用AI?你们疯了吗?

雷峰网 浏览 276 11-27
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11