参考指南

当下主流的视觉语言模型（Vision-Language Models, VLM），通常都采用这样一种设计思路：将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌，但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高，不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO，试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题：如果不依赖预训练的视觉编码器，能否构建出与顶级模块化 VLM 相媲美的原生统一架构？

图丨相关论文（来源：arXiv）

在传统方法中，视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型，这些编码器虽然在视觉理解上表现出色，但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是，视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系，后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂，还需要大量的对齐数据来弥合两个模态之间的鸿沟。

高效训练新标杆！华人开源原生VLM-NEO，以少数据追平顶级模型

降薪15%！...

巴萨1月或提...

涉对华芯片供...

直播|| 降...

全球首个飞行...

中东局势＂历...

天空：西汉姆联将继续信任努诺，俱乐部今天开会讨论引援问题

男子在梅里雪山失联20天女友悬赏寻人：找到活人20万

累坏了，库尼亚打进扳平球+中框1次，贡献解围2次拦截2次

伊媒披露以试图暗杀伊朗总统细节：发射6枚导弹或炸弹

周涛名后抛弃初恋丈夫，转身嫁给富商

大度，彼特-希尔顿祝贺法比奥打破了自己的正式比赛出场纪录

马筱梅首晒孕肚状态绝佳，新生儿性别已暗示，汪小菲家将有新成员

成毅遇事业“尴尬期”，给娱乐圈“提了个醒”

上海AI实验室开源书生万亿科学大模型Intern-S1-Pro

十五运会开幕式收视出炉！最高破3.9%，刘德华上场涨出小高峰

晶圆代工双雄竞速：华虹二季度出货飙升，中芯国际订单接不过来

释永信商业版图：共关联8家企业 3家为在业存续状态

独家｜淘宝闪购加码高校即时零售，首批锁定200个核心高校商圈

暑期档，危险了

小鹏汽车招聘计划上调至8000人聚焦AI与智能驾驶领域

外交部：敦促美方日方尽快撤走＂堤丰＂中导系统

伊恩-拉什：萨拉赫100%应该成为利物浦副队长

比亚迪仰望 U8L 内饰亮相：轴距 3250mm 三排布局，下半年上市

牛弹琴：中东发生历史性事件两个特殊国家签特殊协议

痔疮手术后怎样尽快恢复

数百犹太裔知名人士签署公开信：呼吁制裁以色列

特朗普:空管员不返岗就扣薪建议停摆期未请假者奖钱

李斌被告！蔚来被指虚增收入和利润，港股闪崩13%

大S两个孩子回北京过年，汪小菲和孩子团聚