关闭广告

刚刚,梁文锋署名,DeepSeek元旦新论文要开启架构新篇章

华尔街见闻官方2026-01-02 00:00:01183人阅读

来源:机器之心

新年第一天,DeepSeek 发布了一篇新论文,提出了一种名为 mHC (流形约束超连接)的新架构。该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 。

简单来说,DeepSeek 提出的 mHC 通过将传统 Transformer 的单一残差流扩展为多流并行架构,并利用 Sinkhorn-Knopp 算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了超连接(HC)在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题。


这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得注意的是,DeepSeek 创始人 & CEO 梁文锋也在作者名单中。<

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

罗马诺:水晶宫租借伊戈尔失败,利物浦在等待水晶宫对格伊的决定

懂球帝 浏览 368 09-02

美媒:詹杜库东文VS约字亚卡布 打一轮总决赛你会选谁?

直播吧 浏览 2837 07-22

上了年纪的女人,夏天多穿“短上衣+高腰裤”,时髦还显高

静儿时尚达人 浏览 435 08-14

8年青春换来丈夫出轨,如今张嘉倪让前夫高攀不起

画画影视 浏览 157 12-24

退休警察举报11年前交通事故:当年鉴定疑未勘验实车

红星新闻 浏览 246 11-04

海纳:现在不会透露科曼的未来,未来三周会继续看看转会市场动向

直播吧 浏览 458 08-11

TVB颁奖礼太节省!3个明星坐一台车,话筒都不够分,场面好简陋

萌神木木 浏览 150 01-05

伊以冲突范围还在扩大 特朗普称愿让普京做调解人

上观新闻 浏览 3773 06-17

搭激光雷达/纯电续航506km 长安启源全新Q05开启盲订

网易汽车 浏览 269 10-16

马斯克:日本今年将少近100万人

观察者网 浏览 9100 08-09

《扫毒风暴》满腹赘肉的“按摩女”被吐槽,殊不知这是导演的高明

娱乐圈笔娱君 浏览 1260 07-16

800V+5C超充 新款岚图梦想家8月29日预售

网易汽车 浏览 446 08-24

老板开学前接到中学300盒燕窝"大订单" 差点损失14万

环球网资讯 浏览 534 08-26

胡塞武装宣布:打掉隶属美以沙三方间谍网络

环球网资讯 浏览 193 11-15

湖记:我认为湖人新赛季前不会再有操作 他们会观察现有的阵容

直播吧 浏览 8478 08-14

AI Agent行业应用价值及全球市场机遇洞察

霞光社 浏览 10535 07-31

Windsurf交易内幕疯传:24亿美元被瓜分,背刺数百员工?

机器之心Pro 浏览 1631 07-15

范丞丞方报警,杭州公安已介入

都市快报橙柿互动 浏览 445 08-18

马杜罗紧急求助普京:委内瑞拉需要导弹、雷达和飞机

上观新闻 浏览 241 11-03

牛弹琴:欧洲大怒 多支军队兵发格陵兰抗衡美国吞并

现代快报 浏览 188 01-18

中方回应美100%关税威胁:动辄以高额关税进行威胁,不是与中方相处的正确之道

环球网资讯 浏览 279 10-13
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11