关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者2025-10-28 00:00:01239人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

夏天衣服穿花的居然也不土!试试这些印花单品,大方又不凌乱

静儿时尚达人 浏览 312 08-31

万万没想到!在官宣离婚半年后,陈晓竟以这样的方式再次“出圈”

情感大头说说 浏览 7206 07-24

50岁女性冬季穿衣指南:避开 2 大禁忌,这样得体又时髦

静儿时尚达人 浏览 191 12-03

三伏将至,阳气最旺!如何趁热打"贴"?

人民网 浏览 11984 07-18

没招了,拜到真·时髦祖师奶

时尚COSMO 浏览 375 08-23

22点至8点严禁催收、电话最多6次/天,消费贷催收新规划重点

上观新闻 浏览 141 02-02

伊朗将成立国防委员会以提升武装部队战力

澎湃新闻 浏览 7824 08-04

他怎么在内娱男女通吃?颜值一般但性张力绝了

Yuki女人故事 浏览 324 09-20

2月销量普跌,三大中国车企仅吉利超20万辆

驾仕派 浏览 129 03-02

青海隐形首富北京豪宅被1520万拍下 物业费已拖欠45万

极目新闻 浏览 9184 07-11

限时领享价10.76万起/有新配色 领克06 Relive上市

网易汽车 浏览 6372 08-06

时隔一年重要大会在东南沿海大省举办 出现新变化

政知新媒体 浏览 264 10-18

博士,突然过剩了

智谷趋势 浏览 7264 07-24

荣梓衫工作室回应偏轨事件,暴力行径揭露阴暗面

二凯训猛犬 浏览 264 10-20

抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT4o

量子位 浏览 268 10-14

官方:蒂瓦特兵工厂因操纵比赛,欧战禁赛10年+罚款50万欧

懂球帝 浏览 4002 07-17

退钱!湖北国资坚决撤销交易,湖南老板17亿套现计划落空

灰鸽观察室 浏览 8849 07-13

薛鹤翔:宏观专题 物价双轮动,消费暖 产业兴(7月物价数据点评)

首席经济学家论坛 浏览 5704 08-11

会打扮的中年女人,穿“裙子”不配丝袜和运动鞋,这样更优雅

静儿时尚达人 浏览 5121 08-08

继百万私人厨师曝光后,林青霞又被爆另一癖好

卷史 浏览 5156 07-12

刘强东又要敲钟:京东工业冲刺港股,估值67亿美元

蓝鲸新闻 浏览 317 09-29
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11