关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2025-10-20 00:00:02380人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

上海官方:球队将后卫戴昊租借至宁波 为期两年

直播吧 浏览 491 08-22

本田发布纯电小型车N-ONE e:官图,WLTC续航超270公里

皆电 浏览 1055 07-31

特朗普拟终结邮寄选票

国际金融报 浏览 438 08-20

男子给女友买的金镯子被放在门口丢了 顺丰只赔200元

潇湘晨报 浏览 262 12-23

蔚来:完成股权增发融资,总额10亿美元

红星资本局 浏览 429 09-11

拥抱变局!2025外滩年会揭幕,聚焦新秩序、新科技

国际金融报 浏览 355 10-25

上海技术发明特等奖授予航天人,空间站对接与转位机构让“天宫”遨游太空

上观新闻 浏览 511 08-26

360 度全景相机市场风云再起,GoPro Max 2 原型机曝光

IT之家 浏览 6817 07-30

一时好奇去看了下张维伊评论区,我直接被笑的满地打滚

娱乐圈笔娱君 浏览 425 08-22

美伊"极限拉扯"伊朗拒绝谈判 特朗普作出重大让步

上观新闻 浏览 175 04-22

西贝降价网友不买账称"利润这么大""还是贵" 客服回应

极目新闻 浏览 436 10-02

大师作品四连发,艺术影院今天主角只有一个

幕味儿 浏览 3143 07-13

车主称50升油箱被加了67.96升汽油 涉事加油站未回应

澎湃新闻 浏览 1060 08-20

2025年“演技最好女演员”排名,第1实至名归海

皮皮电影 浏览 251 12-16

短期内可生产大量武器级钚 专家分析日本暗藏“核武野心”

环球网资讯 浏览 299 11-23

这才是会打扮的中年女人!穿搭不花不绿,简单时髦,值得借鉴

静儿时尚达人 浏览 298 12-21

田中碧:日本球员水平在提升,想知道与巴西的差距就得比一场

懂球帝 浏览 352 10-13

毕业于北大的石平被中方制裁 媒体:公派留学成卖国贼

新民周刊 浏览 490 09-09

鲁比奥回应石破茂主张"摆脱对美依赖":美日关系很稳固

环球网资讯 浏览 8771 07-13

奥迪将推出全新一代性能车 保留"大排量"内燃机

网上车市 浏览 1003 07-08

赵继伟社媒取消辽篮认证,媒体人:今夏肯定还会有球队询价他

懂球帝 浏览 106 05-06
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11