关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2025-10-20 00:00:02382人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

牛弹琴:特朗普果然出手了 美国军队要有大变革

现代快报 浏览 456 10-01

网传7月购车一口价取消了,是真是假?

吴佩频道 浏览 3810 07-11

售价更低 荣威i5新版本车型发动机参数下调

车质网 浏览 388 10-10

零跑汽车增资至14.07亿,增幅约5%

三言科技 浏览 9868 07-21

羽毛球新星张志杰猝死引关注

网易健康 浏览 7584 07-03

深圳这个人气指标,又爆表了!

博闻财经 浏览 302 12-24

萨内蒂:国米曾尝试让萨穆埃尔加入教练团队;齐沃是完美人选

懂球帝 浏览 5103 08-07

比亚迪第一/零跑新势力销冠 2025年主流车企全年销量汇总

太平洋汽车 浏览 287 01-05

加拿大航空空乘罢工持续 大量旅客滞留机场

北青网-北京青年报 浏览 505 08-19

上汽大众新凌渡L亮相,初代网红要来收复失地

驾仕派 浏览 8651 08-01

贵州省榕江县遭遇特大洪水 洪灾已致6人遇难

新华社 浏览 6233 06-27

MPV销量榜丰田赛那排第一 别克GL8不好卖了?

火星说车 浏览 517 05-18

英伟达宣布50亿美元入股英特尔 双方还将联合开发芯片

财联社 浏览 417 09-19

蓝色+灰色、红色+棕色,这4组配色怎么搭都好看!

LinkFashion 浏览 167 01-08

阿根廷3-0阿尔及利亚,梅西戴帽+加冕世界杯历史射手王

懂球帝 浏览 14 06-17

鲁政委:债市交易主题有何规律?

首席经济学家论坛 浏览 9825 08-10

美国仿制伊朗的自杀式无人机 开始在中东部署

红星新闻 浏览 317 12-05

"特泽会"细节:白宫摆出一张地图

环球时报新闻 浏览 513 08-20

五角大楼公布史上最大规模军费预算

澎湃新闻 浏览 152 04-22

质选车:丰田RAV4荣放以全球品质再续辉煌

车质网 浏览 226 12-20

媒体:巴正式启动军事行动 标志着印巴冲突的重大升级

新京报 浏览 7083 05-11
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11