关闭广告

刚刚,梁文锋署名,DeepSeek元旦新论文要开启架构新篇章

华尔街见闻官方2026-01-02 00:00:01266人阅读

来源:机器之心

新年第一天,DeepSeek 发布了一篇新论文,提出了一种名为 mHC (流形约束超连接)的新架构。该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 。

简单来说,DeepSeek 提出的 mHC 通过将传统 Transformer 的单一残差流扩展为多流并行架构,并利用 Sinkhorn-Knopp 算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了超连接(HC)在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题。


这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得注意的是,DeepSeek 创始人 & CEO 梁文锋也在作者名单中。<

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

呼吸机能代替手术吗?

网易健康 浏览 4774 02-26

27.99万起 上汽奥迪A5L Sportback开启预售

车质网 浏览 2869 07-03

2万罗马仕充电宝14万根充电线拍卖流拍,二拍起拍价164万

三言科技 浏览 131 04-29

天津航空一客机起飞疑发出巨响 机场:系突发机械故障

极目新闻 浏览 3882 07-04

佩莱格里尼:很高兴回到主场取胜,转会?贝蒂斯专注于下一场比赛

直播吧 浏览 444 08-23

Shams:因球场打架,阿尔瓦拉多被禁赛2场&马威被禁赛1场

懂球帝 浏览 279 12-29

新车看点 | 主打性价比,东风风行星海V9越享系列不到15万元起售

观察者网 浏览 480 08-23

专家:特朗普在台湾问题上出奇沉默 这份沉默震耳欲聋

澎湃新闻 浏览 7542 08-05

“三七分”穿法越来越火,这样穿显高又时髦

LinkFashion 浏览 8143 07-05

“开源模型验货官”Perplexity,给Kimi K2盖了个戳

硅星人 浏览 1837 07-21

两名教师涉嫌虐童等待判决 家长:涉事幼儿园还在招生

大风新闻 浏览 387 09-17

罗斯柴尔德家族现遗产之争:93岁婆婆与60岁儿媳打官司

红星新闻 浏览 287 12-16

5天超30场路演!机构掘金雅下水电工程

券商中国 浏览 1324 07-24

被指严重影响美国空军更新换代 F-35又被点名了

枢密院十号 浏览 493 09-16

我国最“不靠谱”专家,公开在央视“忽悠”人

来科点谱 浏览 290 01-16

独生女拒绝接班!天津富豪套现7.2亿,把30年的家业卖给了国资

壹只灰鸽子 浏览 555 08-20

英国"中国间谍"闹剧结束 男子任职反华小组反被当间谍

澎湃新闻 浏览 455 09-17

邮报:纽卡中卫丹-伯恩遭遇肺穿孔和肋骨骨折,将缺阵六周

懂球帝 浏览 315 12-16

特斯拉Model3/ModelY Standard正式发布

网易汽车 浏览 359 10-10

上海AI实验室团队首创视频驱动交互网页重建基准

科技行者 浏览 322 10-22

田中碧:处于低谷的时候我用《灌篮高手》的台词激励自己

懂球帝 浏览 79 05-28
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11