关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者2025-10-28 00:00:01241人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

最高相差上千元!中转机票的羊毛能“薅”吗?

中新经纬 浏览 307 10-02

全新坦克500预售36万起 带着家人舒适去“野”

网易汽车 浏览 6024 08-12

小鹏汽车季报图解:营收183亿,经营亏损9.3亿 交付103181辆车

雷递 浏览 456 08-20

记者:马斯切拉诺确认梅西只是受到轻微撞击,比赛结束时状况良好

直播吧 浏览 821 07-17

铅中毒危害不可逆,影响儿童智力?专家:通过环境控制预防,筛查是关键

时代周报 浏览 3585 07-12

还要涨价!涨了5毛钱后,康师傅饮料少卖7亿,但管理层称不会降价,500ml装也要涨

时代周报 浏览 4641 08-14

吃出蚯蚓、安全存疑、背刺现制:一年卖出30亿只的“饺子大王”,为何翻车?

快刀财经 浏览 331 09-21

礼炮鸣响 国旗护卫队擎国旗出场

政知新媒体 浏览 341 09-03

布朗41+7+6绿军险胜双杀太阳 布克40+6迎500场20+里程碑

醉卧浮生 浏览 106 03-17

券商上半年“成绩单”亮眼,下半年投资机会在哪?

天下财道社 浏览 695 07-31

1700km续航 捷途山海L7 PLUS 限时预售12.99万元起

网易汽车 浏览 436 08-20

不是谁弱谁有理,何美延只是说的好听

小椰的奶奶 浏览 142 12-11

法国国家德比收视创新高,法甲+频道观众峰值达140万

懂球帝 浏览 341 09-26

重庆潼南:“建圈延链”发展汽车后市场产业

新华社 浏览 4492 08-10

扎卡:我想成为一名教练,在桑德兰的这段经历将对我未来大有裨益

直播吧 浏览 430 08-23

辛芷蕾获得影后还不到2天 恶心的事发生了

聚合大娱 浏览 345 09-09

杨丞琳庆祝结婚6周年,与李荣浩撒糖

扒虾侃娱 浏览 326 09-19

2025年“演技最好女演员”排名,第1实至名归海

皮皮电影 浏览 191 12-16

来北京,见证一场机器人的“狂欢”

新华社 浏览 9817 08-11

预计三季度上市 北京现代ELEXIO申报信息曝光

网易汽车 浏览 6998 06-24

泰山女球迷毕业典礼上演莫伊塞斯庆祝:喜欢泰山10年,最喜欢大雷

直播吧 浏览 7837 07-29
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11