关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技2025-10-29 00:00:01345人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

伊媒披露以试图暗杀伊朗总统细节:发射6枚导弹或炸弹

环球网资讯 浏览 1570 07-14

周涛名后抛弃初恋丈夫,转身嫁给富商

虾说扒道 浏览 457 08-20

大度,彼特-希尔顿祝贺法比奥打破了自己的正式比赛出场纪录

懂球帝 浏览 461 08-22

马筱梅首晒孕肚状态绝佳,新生儿性别已暗示,汪小菲家将有新成员

不八卦会死星人 浏览 236 01-14

成毅遇事业“尴尬期”,给娱乐圈“提了个醒”

睡什么起来嗨 浏览 6044 07-13

上海AI实验室开源书生万亿科学大模型Intern-S1-Pro

IT之家 浏览 277 02-05

十五运会开幕式收视出炉!最高破3.9%,刘德华上场涨出小高峰

萌神木木 浏览 233 11-10

晶圆代工双雄竞速:华虹二季度出货飙升,中芯国际订单接不过来

时代周报 浏览 9475 08-09

释永信商业版图:共关联8家企业 3家为在业存续状态

江苏新闻 浏览 50182 07-28

独家|淘宝闪购加码高校即时零售,首批锁定200个核心高校商圈

Tech星球 浏览 72 05-28

暑期档,危险了

斑马消费 浏览 6197 07-28

小鹏汽车招聘计划上调至8000人 聚焦AI与智能驾驶领域

智车情报局 浏览 3172 07-18

外交部:敦促美方日方尽快撤走"堤丰"中导系统

央视新闻客户端 浏览 440 09-17

伊恩-拉什:萨拉赫100%应该成为利物浦副队长

直播吧 浏览 10602 07-26

比亚迪仰望 U8L 内饰亮相:轴距 3250mm 三排布局,下半年上市

IT之家 浏览 9646 07-14

牛弹琴:中东发生历史性事件 两个特殊国家签特殊协议

上游新闻 浏览 481 09-18

痔疮手术后怎样尽快恢复

网易健康 浏览 2617 02-26

数百犹太裔知名人士签署公开信:呼吁制裁以色列

环球时报国际 浏览 344 10-25

特朗普:空管员不返岗就扣薪 建议停摆期未请假者奖钱

鲁中晨报 浏览 318 11-12

李斌被告!蔚来被指虚增收入和利润,港股闪崩13%

深蓝财经 浏览 398 10-17

大S两个孩子回北京过年,汪小菲和孩子团聚

素素娱乐 浏览 266 01-27
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11