关闭广告

ICML2024高分！魔改注意力，让小模型能打两倍大的模型

量子位2199人阅读

彩云科技团队投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力，让小模型能打两倍大的模型！

ICML 2024高分论文，彩云科技团队构建DCFormer框架，替换Transformer核心组件多头注意力模块（MHA），提出可动态组合的多头注意力（DCMHA）。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定，让它们可以根据输入动态组合，从根本上提升了模型的表达能力。

可以近似理解为，原来每层有固定的H个注意力头，现在用几乎同样的参数量和算力，可按需动态组合出多至HxH个注意力头。

DCMHA即插即用，可在任何Transformer架构中替换MHA，得到通用、高效和可扩展的新架构DCFormer。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

精彩推荐

50岁的女人想显气质少穿卫衣，推荐你试试这3款上衣，更时髦

静儿时尚达人浏览 2481

徐亮：有些人心理阴暗总是希望国家队不好，输球了再骂也不迟

懂球帝浏览 2236

雅金：英格兰的身价比我们高得多，但谁是晋级热门场上见分晓

懂球帝浏览 1895

魏牌咖啡系列OTA重磅升级搭载最新语音大模型

网易汽车浏览 2201

六姊妹结局：张秋林的算计不止用在了何家欢身上，还有方涛和刘妈

肆季娱乐浏览 25

乌外长：西方对乌的援助像是挤牙膏

参考消息浏览 2412

国产车市场占有率超过60% 合资车降价也不香了？

汽车扒壹扒浏览 1872

美式豪华的巅峰演绎实拍全新一代林肯领航员

网易汽车浏览 13

宋祖儿背31万奢侈包逛街遭遇路人直指“偷税”，淡定自若成焦点

文艺圈娱乐号浏览 2305

胡塞给美以“划红线”：兵分3路打6艘船

四座版岚图梦想家私人定制版将于粤港澳车展上市

网易汽车浏览 2402

网友炸了！29届白玉兰变黑玉兰？评论区骂声一片，理由竟然都相同

娱乐白名单浏览 2261

微软阿里遥遥领先！中美云巨头狂投1600亿，争做大模型最强金主

智东西浏览 2461

巴黎高定秀 | 100套绝美礼服，一场看不够的时尚盛宴

LinkFashion 浏览 1859

标配乾崑智驾ADS SE 阿维塔07 Pro+售21.99万起

网易汽车浏览 13

美媒：美曾求助中印等阻止俄罗斯在2022年发动核打击

环球网浏览 22376

马斯克那年想借OpenAI救特斯拉最终靠上海

网易科技报道浏览 2431

显气质的夏季穿搭，看这些气质女神就对了，适合30-50岁女人

静儿时尚达人浏览 2316

俄称在克里米亚附近击落乌导弹和无人机

环球网资讯浏览 2251

恩比德：我现在的比赛方式不像一年前我得找回曾经的那个水平

直播吧浏览 16

特朗普和马斯克考虑给美选民发钱每户或能获5000美元

界面新闻浏览 19

ICML2024高分！魔改注意力，让小模型能打两倍大的模型

泰国与中国完...

美妆胶卷 |...

为了对抗焦虑...

黄一鸣给孩子...

广州已撤店深...

特朗普又获得...

华为黑科技!传祺M8乾崑版申报图流出 MPV要变天？

女人去油这件事，白衬衫最好使

昊铂HT2024款亮相粤港澳车展公布昊铂智驾早鸟计划

50岁的女人想显气质少穿卫衣，推荐你试试这3款上衣，更时髦

徐亮：有些人心理阴暗总是希望国家队不好，输球了再骂也不迟

雅金：英格兰的身价比我们高得多，但谁是晋级热门场上见分晓

魏牌咖啡系列OTA重磅升级搭载最新语音大模型

六姊妹结局：张秋林的算计不止用在了何家欢身上，还有方涛和刘妈

乌外长：西方对乌的援助像是挤牙膏

国产车市场占有率超过60% 合资车降价也不香了？

美式豪华的巅峰演绎实拍全新一代林肯领航员

宋祖儿背31万奢侈包逛街遭遇路人直指“偷税”，淡定自若成焦点

胡塞给美以“划红线”：兵分3路打6艘船

四座版岚图梦想家私人定制版将于粤港澳车展上市

网友炸了！29届白玉兰变黑玉兰？评论区骂声一片，理由竟然都相同

微软阿里遥遥领先！中美云巨头狂投1600亿，争做大模型最强金主

巴黎高定秀 | 100套绝美礼服，一场看不够的时尚盛宴

标配乾崑智驾ADS SE 阿维塔07 Pro+售21.99万起

美媒：美曾求助中印等阻止俄罗斯在2022年发动核打击

马斯克那年想借OpenAI救特斯拉最终靠上海

显气质的夏季穿搭，看这些气质女神就对了，适合30-50岁女人

俄称在克里米亚附近击落乌导弹和无人机

恩比德：我现在的比赛方式不像一年前我得找回曾经的那个水平

特朗普和马斯克考虑给美选民发钱每户或能获5000美元

ICML2024高分！魔改注意力，让小模型能打两倍大的模型

泰国与中国完...

美妆胶卷 |...

为了对抗焦虑...

黄一鸣给孩子...

广州已撤店深...

特朗普又获得...

华为黑科技!传祺M8乾崑版申报图流出 MPV要变天？

女人去油这件事，白衬衫最好使

昊铂HT2024款亮相粤港澳车展 公布昊铂智驾早鸟计划

50岁的女人想显气质少穿卫衣，推荐你试试这3款上衣，更时髦

徐亮：有些人心理阴暗总是希望国家队不好，输球了再骂也不迟

雅金：英格兰的身价比我们高得多，但谁是晋级热门场上见分晓

魏牌咖啡系列OTA重磅升级 搭载最新语音大模型

六姊妹结局：张秋林的算计不止用在了何家欢身上，还有方涛和刘妈

乌外长：西方对乌的援助像是挤牙膏

国产车市场占有率超过60% 合资车降价也不香了？

美式豪华的巅峰演绎 实拍全新一代林肯领航员

宋祖儿背31万奢侈包逛街遭遇路人直指“偷税”，淡定自若成焦点

胡塞给美以“划红线”：兵分3路打6艘船

四座版 岚图梦想家私人定制版将于粤港澳车展上市

网友炸了！29届白玉兰变黑玉兰？评论区骂声一片，理由竟然都相同

微软阿里遥遥领先！中美云巨头狂投1600亿，争做大模型最强金主

巴黎高定秀 | 100套绝美礼服，一场看不够的时尚盛宴

标配乾崑智驾ADS SE 阿维塔07 Pro+售21.99万起

美媒：美曾求助中印等阻止俄罗斯在2022年发动核打击

马斯克那年想借OpenAI救特斯拉 最终靠上海

显气质的夏季穿搭，看这些气质女神就对了，适合30-50岁女人

俄称在克里米亚附近击落乌导弹和无人机

恩比德：我现在的比赛方式不像一年前 我得找回曾经的那个水平

特朗普和马斯克考虑给美选民发钱 每户或能获5000美元

昊铂HT2024款亮相粤港澳车展公布昊铂智驾早鸟计划

魏牌咖啡系列OTA重磅升级搭载最新语音大模型

美式豪华的巅峰演绎实拍全新一代林肯领航员

四座版岚图梦想家私人定制版将于粤港澳车展上市

马斯克那年想借OpenAI救特斯拉最终靠上海

恩比德：我现在的比赛方式不像一年前我得找回曾经的那个水平

特朗普和马斯克考虑给美选民发钱每户或能获5000美元