关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2025-10-20 00:00:02384人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美媒揭美军37小时奔袭伊朗细节

环球网资讯 浏览 6157 06-28

小米SU7换代,或涨价2万元,都会有哪些升级?

正在说车 浏览 290 12-19

牺牲师父,抛妻弃子,《扫毒风暴》卢少骅彻底黑化!

电和影 浏览 7261 07-20

泰柬局势"火药味"飙升:泰国出动F-16战机 洪森表态

每日经济新闻 浏览 3675 07-25

避免引发恐慌 中东多国收紧社媒敏感信息管控

环球网资讯 浏览 211 03-17

今年春天最流行的4件卫衣,照着穿就很好看

LinkFashion 浏览 236 03-01

89年青年川商“出手”,成都汉唐云将入主一家江苏上市公司!

红星资本局 浏览 2523 07-17

25款巴博斯G900 XLP 900 6x6 现车来袭,自贸区平行进口优惠中

WJW 浏览 528 08-15

中俄朝三国领导人将首次一起公开亮相 美媒:罕见

扬子晚报 浏览 553 08-29

美媒:杰伦威&巴特勒&唐斯&穆雷 给下赛季的四位二当家进行排名

直播吧 浏览 2384 07-26

把麦秸秆加进混凝土,强度竟然更高了

网易科技报道 浏览 449 09-10

泽连斯基愿意在与普京的会晤中讨论领土问题

界面新闻 浏览 501 08-24

人工智能如何赋能传统工艺?成都大学这场学术活动深入求解

封面新闻 浏览 316 10-26

枪杀柯克嫌疑人拒绝与警方合作 室友“震惊”

红星新闻 浏览 424 09-16

什克:穆里尼奥是伟大的教练;如果薪水合适我当时会留在国米

懂球帝 浏览 446 09-11

广东千亿农商行拟再收编1家亏损村行,全省今年11家已被解散或合并

湘财Plus 浏览 2359 07-25

美国因格陵兰岛问题对欧洲8国加关税 多国反击特朗普

环球网资讯 浏览 290 01-18

股民数量大增,都来股市捞钱了?

木禾投研 浏览 2493 07-18

14岁少年境外失联被多次转卖 家人凑钱赎人遭骗子围猎

新京报 浏览 4867 07-31

特朗普发B-2轰炸机飞行投弹视频 配乐恶搞"轰炸伊朗"

环球网资讯 浏览 7517 06-26

时尚守艺人 | 以木为纸,雕出万千世界

时尚COSMO 浏览 239 12-24
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11