关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2025-10-20 00:00:0296人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

哈斯勒姆:詹姆斯绝对有可能离开湖人 现在对他最重要的是争冠

直播吧 浏览 9626 07-12

无法参选国民党主席 卢秀燕正式表态并亲自透露原因

海峡导报社 浏览 286 08-25

“网络达人科创观察营”在沪举行,探讨如何搭建科创传播的“鹊桥”

澎湃新闻 浏览 215 09-01

百万粉丝网红小英丈夫被刑拘 夫妻已数月未住村里

红星新闻 浏览 39 11-17

本科生因"逆天学术履历"引争议 学校回应:正在核查中

封面新闻 浏览 845 07-16

希腊主帅:字母哥多次犯规被漏判,他本应获得更多的罚球

懂球帝 浏览 170 09-10

羊绒专场 || 被大家问了无数次的经典款,终于回来了!

黎贝卡的异想世界 浏览 9 12-11

初秋美拉德风炸街!这样搭配也太绝了吧!

Yuki女人故事 浏览 174 08-31

九三阅兵倒计时7天 训练场看"中国排面"

齐鲁壹点 浏览 157 08-28

美众议长:与特朗普发生争执后 马斯克更换了手机号

环球网资讯 浏览 2026 07-17

中秋节快乐!

黎贝卡的异想世界 浏览 103 10-07

第5次退网,辛巴“狼来了”?

无冕财经 浏览 254 08-20

俄官员:乌克兰武装部队正“准备逃离赫尔松”

每日经济新闻 浏览 328 08-18

90后“富二代”接棒零食帝国!1.5万家好想来年入323亿冲刺IPO

野马财经 浏览 230 09-02

为财政刺激计划融资,日本拟增发逾11.5万亿日元新债

华尔街见闻官方 浏览 25 11-27

联手胖东来,150亿酒鬼酒卖爆了

21世纪商业评论 浏览 8311 07-26

山东一饭馆发菜品视频拟被罚45万 官方通报

界面新闻 浏览 9971 07-12

亚奇雷AGI将参展CES 2026:展出10000MT/s内存条与Gen5 SSD

IT之家 浏览 5 12-12

小心!有人开溜了

博闻财经 浏览 170 09-09

大湾区晚会太混乱!跑调抢拍忘词破音全占了,合唱几乎都翻车

萌神木木 浏览 161 09-29

北青:王钰栋、胡荷韬已经被来自欧洲的部分俱乐部盯上

懂球帝 浏览 190 09-10
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11