关闭广告

刚刚,梁文锋署名,DeepSeek元旦新论文要开启架构新篇章

华尔街见闻官方2026-01-02 00:00:01262人阅读

来源:机器之心

新年第一天,DeepSeek 发布了一篇新论文,提出了一种名为 mHC (流形约束超连接)的新架构。该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 。

简单来说,DeepSeek 提出的 mHC 通过将传统 Transformer 的单一残差流扩展为多流并行架构,并利用 Sinkhorn-Knopp 算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了超连接(HC)在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题。


这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得注意的是,DeepSeek 创始人 & CEO 梁文锋也在作者名单中。<

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

上半年城镇调查失业率均值5.2%

财联社 浏览 5075 07-15

帧帧美若油画,库布里克大神杰作告别放映!

幕味儿 浏览 284 01-18

上新|| 穿了4年一直被要链接,这条神裤终于出了更好穿的版本

黎贝卡的异想世界 浏览 70 05-28

这个周末传疯了!宁德时代枧下窝锂矿关停,锂矿股再度意念涨停?

金石随笔 浏览 497 08-11

韩庚官宣生子,撕开了鹿晗和关晓彤的体面?

包饺子ai剪辑 浏览 339 11-03

诋毁蚂蚁集团,粉丝超1亿“专家”被封禁,什么信号?

一见财经 浏览 187 04-10

周治平任中国兵器工业集团董事长 公司资产超5700亿

每日经济新闻 浏览 2467 07-09

特斯拉美国“失速”:市场份额跌至近八年最低

环球网资讯 浏览 413 09-09

水晶宫1-1诺丁汉森林,萨尔破门,赫德森-奥多伊扳平比分

懂球帝 浏览 427 08-25

“疲惫脸”太丑了!有这些特征的女生怎么救?

Yuki女人故事 浏览 305 09-21

空军用多架运-20飞机送新飞行学员报到

极目新闻 浏览 797 08-02

日本人口连续16年减少,暗藏哪些新变化?东京都为何成人口增长“独苗”?

第一财经资讯 浏览 4388 08-11

阿森纳官方:13名青训球员脱颖而出,与俱乐部签订奖学金协议

直播吧 浏览 1827 07-17

洪灝:行情远没有走完,市场的上涨大概率会超出大家想象

首席经济学家论坛 浏览 393 10-02

珠海收获2金!广东省无人机应用技术职业技能大赛结果揭晓

南方都市报 浏览 309 11-25

试错结束,银行纷纷关停微信服务号

21金融圈 浏览 3184 08-07

张升民任国家中央军事委员会副主席

新华社客户端 浏览 321 10-29

让智驾能看懂真实世界 英伟达发布开源Alpamayo平台

网易汽车 浏览 292 01-07

清华大学等多所顶尖院校联手揭秘智能数据准备革命

科技行者 浏览 243 01-28

特朗普再酝酿对伊打击 美伊谈判连放信号

国际在线 浏览 64 05-24

中国AI半导体加速“脱英伟达”,半导体国内自给率到2026年将提高至8成

财闻 浏览 271 02-02
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11