关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位2199人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

50岁的女人想显气质少穿卫衣,推荐你试试这3款上衣,更时髦

静儿时尚达人 浏览 2481

徐亮:有些人心理阴暗总是希望国家队不好,输球了再骂也不迟

懂球帝 浏览 2236

雅金:英格兰的身价比我们高得多,但谁是晋级热门场上见分晓

懂球帝 浏览 1895

魏牌咖啡系列OTA重磅升级 搭载最新语音大模型

网易汽车 浏览 2201

六姊妹结局:张秋林的算计不止用在了何家欢身上,还有方涛和刘妈

肆季娱乐 浏览 25

乌外长:西方对乌的援助像是挤牙膏

参考消息 浏览 2412

国产车市场占有率超过60% 合资车降价也不香了?

汽车扒壹扒 浏览 1872

美式豪华的巅峰演绎 实拍全新一代林肯领航员

网易汽车 浏览 13

宋祖儿背31万奢侈包逛街遭遇路人直指“偷税”,淡定自若成焦点

文艺圈娱乐号 浏览 2305

胡塞给美以“划红线”:兵分3路打6艘船

浏览 2248

四座版 岚图梦想家私人定制版将于粤港澳车展上市

网易汽车 浏览 2402

网友炸了!29届白玉兰变黑玉兰?评论区骂声一片,理由竟然都相同

娱乐白名单 浏览 2261

微软阿里遥遥领先!中美云巨头狂投1600亿,争做大模型最强金主

智东西 浏览 2461

巴黎高定秀 | 100套绝美礼服,一场看不够的时尚盛宴

LinkFashion 浏览 1859

标配乾崑智驾ADS SE 阿维塔07 Pro+售21.99万起

网易汽车 浏览 13

美媒:美曾求助中印等阻止俄罗斯在2022年发动核打击

环球网 浏览 22376

马斯克那年想借OpenAI救特斯拉 最终靠上海

网易科技报道 浏览 2431

显气质的夏季穿搭,看这些气质女神就对了,适合30-50岁女人

静儿时尚达人 浏览 2316

俄称在克里米亚附近击落乌导弹和无人机

环球网资讯 浏览 2251

恩比德:我现在的比赛方式不像一年前 我得找回曾经的那个水平

直播吧 浏览 16

特朗普和马斯克考虑给美选民发钱 每户或能获5000美元

界面新闻 浏览 19
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11