关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2025-10-20 00:00:02284人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

六氟磷酸锂“带飞”氟化工,衢州启动“中国氟谷”的底气在哪里?

时代周报 浏览 227 11-11

享界S9T无伪装路测视频曝光,鸿蒙智行首款旅行车享界S9T亮相草原

雷科技 浏览 10019 07-22

WAIC展览直击,AI不仅会聊天

虎嗅APP 浏览 5397 07-26

陈运拿下华锋股份意欲何为

北京商报 浏览 232 11-25

媒体:米莱大骂副总统"叛徒" 撕碎执政联盟的最后体面

中国新闻周刊 浏览 6624 07-28

古美关系高度紧张 古巴启动"战争状态"

扬子晚报 浏览 184 01-20

天弘基金对话陆灏川:“反内卷”催化创业板战略配置机遇

证券市场周刊 浏览 1666 07-17

名记:太阳有意先签后换得库明加 他曾在KD&勇士交易谈判中被提及

直播吧 浏览 2196 07-18

汪峰参加摇滚演唱会 引发网友吐槽?

心静物娱 浏览 429 09-01

FIFA官方:比赛间需保证72小时休息;赛季结束应至少21天假

懂球帝 浏览 10149 07-13

E句话看天下| 阮经天交往小20岁女友?

仙女事件簿 浏览 276 10-02

除了助攻外,格拉利什本场夺回球权和抢断次数也是队内最多

懂球帝 浏览 406 08-25

英伟达CEO黄仁勋再抛售数千万美元股票,个人净资产追平巴菲特

华尔街见闻官方 浏览 2103 07-12

世体:皇马拒绝让女超杯在迈阿密举行,女足俱乐部都感到不满

懂球帝 浏览 305 10-16

战满5局惜败!世界第一林诗栋2-3邱党,无缘横滨冠军赛八强

全景体育V 浏览 2164 08-09

62岁何赛飞的“真实”,让多少明星“无地自容”

可乐谈情感 浏览 272 10-26

蔡依林陷入抄袭风波!新专辑造型构图撞张韶涵,过往抄袭争议被扒

萌神木木 浏览 846 07-17

俄称击落数十架飞往莫斯科无人机

北青网-北京青年报 浏览 208 10-27

交易对价约3.66亿元,华大智造拟收购两大前沿业务

南方都市报 浏览 171 02-02

2比4不敌张本智和 媒体:国乒不能只靠王楚钦独挑大梁

澎湃新闻 浏览 557 08-12

惠科股份:面板“老三”的IPO“赌局”

Daily每日财报 浏览 5492 08-12
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11