关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者2025-11-11 00:00:01300人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

梁衍波当选青农商行董事长

21金融圈 浏览 277 02-05

传言落地!居然智家,危险了?

闺蜜财经 浏览 7558 07-29

原来闫妮的女儿就是她 23岁就演了女一号

章眽八卦 浏览 405 09-10

独行侠媒体晒照新赛季阵容:能排出两套首发 阵容深度全联盟第一

直播吧 浏览 9675 08-06

00后辍学生打造“作弊神器”,被停学却获千万投资

虎嗅APP 浏览 367 10-01

印度恢复向中国公民发放旅游签证

财联社 浏览 8126 07-24

全球最大容器镜像库Docker Hub安全调查:10000+镜像泄露敏感密钥

IT之家 浏览 281 12-11

郑爽新账号遭封禁,晒自拍一个细节被人认出,疑似穿男友衣服出镜

萌神木木 浏览 284 01-11

奔驰/宝马/奥迪销量集体下滑,谁也逃不过以价换量

郑谊 浏览 275 01-21

媒体:乌克兰爆发大规模反政府抗议 泽连斯基有大麻烦

上观新闻 浏览 2282 07-29

媒体:将"台独"恶果甩锅"黑天鹅" 赖清德刷新无耻下限

环球网资讯 浏览 545 09-07

中国女排世锦赛24人名单:李盈莹龚翔宇领衔,朱婷袁心玥无缘

全景体育V 浏览 2365 07-16

经纪人:杰克逊的转会最复杂,我认为拜仁6500万欧买断他不成问题

直播吧 浏览 419 09-20

媒体:北京密云两地四天下了近一年的雨

新京报 浏览 6014 07-30

6月售9848辆 腾势D9实现1-6月MPV市场销量冠军

网易汽车 浏览 8898 07-04

鸿蒙智行首款旅行车享界S9T来了,余承东:高颜值、大空间、高性能

网易科技频道 浏览 8896 07-14

海底捞:在6月至8月夜宵黄金期推出“夜宵菜单”

网易科技报道 浏览 10477 07-12

努诺-门德斯:每个人都是团队的一部分,这是我们关键所在

懂球帝 浏览 3470 07-13

男主播大秀肌肉,麻辣王子开始“擦边”营销?

国际金融报 浏览 3836 07-18

药厂真核!扎卡近2年触球、成功传球、进攻三区传球均为德甲最多

直播吧 浏览 764 07-31

高德攻入美团腹地 电商“三国杀”持续加码

北京商报 浏览 451 09-11
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11