关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技2025-10-29 00:00:01247人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

张国强:被前妻嫌穷,如今苦尽甘来

小娱乐悠悠 浏览 292 09-29

美光:HBM4E 时代定制 HBM 内存落地,推动形成“特供”格局

IT之家 浏览 7512 08-12

美政府大幅削减NASA预算 41项科研项目或被终止

环球网资讯 浏览 4194 06-11

专家:特朗普对中国无牌可打了 没想到蠢到打起波音牌

澎湃新闻 浏览 280 10-13

马斯克AI女友上线24h爆火,全球宅男连夜充值!月费30刀隐藏模式杀疯

新智元 浏览 1839 07-17

告别0操作!勇士今夏首笔引援:签2023年落选秀金西 曾效力爵士

醉卧浮生 浏览 422 08-25

世俱杯各大奖项出炉:帕尔默获世俱杯金球奖 拜仁获公平竞赛奖

直播吧 浏览 1103 07-14

大满贯冠军对决!萨巴伦卡鏖战超3小时,险胜晋级辛辛那提16强

全景体育V 浏览 8171 08-12

新年第一顶帽子,就要不基础

时尚COSMO 浏览 183 01-06

17岁女子将19岁男友10万卖到缅甸未涉拐卖罪 律师解读

潇湘晨报 浏览 572 08-20

爆料!美国在芯片货物中安了追踪器

环球时报国际 浏览 756 08-14

神二十乘组将于近日择机实施第三次出舱活动

界面新闻 浏览 381 08-15

缅甸政府将拆除KK园区148栋建筑,其中包括KTV、医院和SPA会所,已拆除101栋

红星新闻 浏览 217 11-10

日产天籁PLUS,加长14毫米,合资家轿还有没有市场?

正在说车 浏览 467 08-21

辛芷蕾威尼斯封后 十年前吹牛想站上世界级舞台被嘲

澎湃新闻 浏览 324 09-08

ChatGPT-5上线遭“滑铁卢” OpenAI回归GPT-4o

财联社 浏览 1938 08-10

巴媒:若日尼奥有望重返意大利国家队,加图索已更新他的联系方式

直播吧 浏览 385 09-10

给未来AI的时间胶囊|姚卯青:未来两年把具身智能从实验室推向规模化商业

上观新闻 浏览 3036 07-25

陈冠希参加活动状态差,皮肉下垂皱纹明显

萌神木木 浏览 424 08-24

一年一度的秋装趋势,来了!

黎贝卡的异想世界 浏览 311 09-20

AI混战日:OpenAI开源、Claude发最强coding模型、Google惊艳的世界模型也亮相

硅星人 浏览 5477 08-06
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11