关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者2025-11-11 00:00:01220人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

高云翔晒与女儿合拍视频,父女合作好温馨

心静物娱 浏览 385 08-24

新能源大三排SUV的猎杀时刻开始了

汽车公社 浏览 123 12-19

3.99万元起!宇树科技发布第三款人形机器人,支持个性化定制

澎湃新闻 浏览 5862 07-26

中美AI豪赌:一个要“登天”,一个要“落地”

网易科技报道 浏览 380 09-01

华人博士在英国做出颠覆性人机交互“皮肤”,已用于汽车、医疗

创业邦 浏览 181 12-19

全球铜市神经紧绷:摩科瑞被曝大举提货 LME库存近被掏空

财联社 浏览 189 12-05

印度要再买114架"阵风" 巴总统猛然晒出一张歼10照片

新民周刊 浏览 384 09-16

研选行业丨全球 AI 市场 CAGR 超 35% 驱动智算需求!SST方案成数据中心供配电优选,这些公司将受益

第一财经资讯 浏览 4607 07-25

美国向中东地区部署更多军力

浏览 9298 08-20

内娱白月光,毁于潜规则?

阿淫记录生活日常 浏览 269 10-16

《披哥5》初舞台惊喜多:第一众望所归,3大黑马抢眼,0731撑门面

娱乐圈笔娱君 浏览 5308 08-09

6旬女子2次误闯男更衣室 男子险被"看光":标识抽象

环球网资讯 浏览 3498 08-10

网红“焖面哥”买7万斤滞销西瓜拉回城2元一个卖掉

极目新闻 浏览 4380 07-24

NASA局长之争出新番:特朗普重提马斯克盟友

观察者网 浏览 227 11-05

万斯称美国正考虑向乌克兰提供“战斧”导弹

央视新闻客户端 浏览 275 09-29

长安CS75 PRO正式上市 售10.79-11.99万元

车质网 浏览 366 06-23

刚刚,Thinking Machines Lab首次发长文,揭开LLM推理不确定性真相

机器之心Pro 浏览 326 09-11

传英伟达“挑战者”Groq接近完成新一轮融资,估值或翻倍至60亿美元

智通财经 浏览 5533 07-31

82岁的拜登确诊前列腺癌

网易健康 浏览 3849 05-20

撒贝宁去加拿大探望丈人,带着老婆孩子逛街

甜柠聊史 浏览 313 10-17

中加贸易争端:中方反制加拿大关税举措

浏览 3070 07-14
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11