关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2025-10-20 00:00:02279人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

给飞船返回舱装上安全气囊 零高度逃逸新模式有啥不一样

北青网-北京青年报 浏览 4346 06-18

山东99-75宁波3喜1忧!高诗岩陈林坚太关键,王证神射,2外出隐患

篮球资讯达人 浏览 170 01-28

城镇化率突破67%,城市发展转向存量优化,自然资源部:将发布规划指南

时代周报 浏览 343 09-22

我国科学家证实镧镍氧体系材料的高温超导特性

IT之家 浏览 286 09-21

央媒点名支持,迪丽热巴新剧赢麻了,为“打拐”助力值得支持

最爱酷影视 浏览 1134 07-30

你发现没有,电动车上高速,普遍跑不快?这事真不能让车“背锅”

小李车评李建红 浏览 458 08-11

外媒:特斯拉顶配Cybertruck价格进一步上涨

环球网资讯 浏览 382 09-01

王欣瑜不敌小白菜生涯首冠继续迟到,中国网球仍成奥克兰最大赢家

网球之家 浏览 188 01-12

今年的餐饮市场,被“山野风”绑架了

餐饮老板内参 浏览 393 08-26

直击WRC:消费级机器人登场,平台级较量升温

第一财经资讯 浏览 9723 08-09

英国女副首相辞任内阁职务:十几岁当母亲 37岁当祖母

新民周刊 浏览 428 09-07

斑马智行冲刺港股:年亏8亿前CFO呛声现任管理层阿里与上汽是股东

雷递 浏览 427 08-24

脱下皮衣换唐装!黄仁勋首次中文演讲

网易科技报道 浏览 2300 07-17

手握 “顾拜旦之炬”,北京让全球机器人智竞燃起来了!

贝壳财经 浏览 455 08-22

王晶揭赵露思解约真相:艺人不甘心当血包

大笑江湖史 浏览 8153 08-13

最强风力15级台风过境三亚:不少住户阳台门窗被吹掉

大风新闻 浏览 514 08-26

缩小版奥迪“A7”实车亮相 预售价26万配三块大屏

小史谈车 浏览 1482 07-25

广州一城中村耗时15年终于拆除 周边是每平10万元豪宅

每日经济新闻 浏览 7153 07-23

免疫调节原研药赛能缺货致价格翻倍!已有药店限购,相关企业回应:涨价是市场行为

红星资本局 浏览 249 10-27

邮报:前水晶宫后卫窝藏19.7公斤价值236万镑冰毒被判入狱14年

直播吧 浏览 5785 08-12

多地突然取消!小地方,不配办马拉松了?

西部城市 浏览 200 10-28
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11