关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2025-10-20 00:00:0295人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

伯克希尔股价盘中一度跌超6% 机构反应较为乐观

环球网资讯 浏览 5879 05-06

上汽联手华为的尚界发布在即,尚界能给上汽带来什么?

江瀚视野 浏览 273 08-23

DeepSeek流量下滑,这半年梁文锋都干了啥

中国企业家杂志 浏览 2974 07-15

带6.1万枚比特币逃到英国 钱志敏承认比特币洗钱指控

界面新闻 浏览 185 10-01

重点企业集聚、百亿母基金支持……湖北人形机器人产业初具规模

贝壳财经 浏览 839 07-18

两度ST、营收三连降,黑芝麻如何走到易主这一步?

尺度商业 浏览 9876 08-06

肖战藏海传登陆暑假下午档

趣看热点 浏览 1662 07-15

黄仁勋:我很想买一台小米汽车;美团高管回应刘强东只赚5%:大哥,从来没人能赚到5%;小鹏汽车扩招8000人!年内员工规模将达3万

雷峰网 浏览 1671 07-17

这2种水果可降低高血压死亡风险

浏览 8743 06-03

面向大模型应用的审计领域高质量数据集联创联建工作启动

网易科技报道 浏览 198 09-10

全智贤给了韩娱4年,归来还是0人能打?

时尚COSMO 浏览 166 09-16

三大运营商打响算力卡位战 剑指AI应用变现

证券时报 浏览 191 09-09

60岁阿姨靠穿搭火了!“简约款”穿出高级感,自然老去也很美

静儿时尚达人 浏览 91 10-12

苹果大连百年城店拟停业 或成为首家在华关停的直营店

界面新闻 浏览 1546 07-29

夏天衣服千万别买太多,认准T恤和连衣裙,舒适大方又高级

静儿时尚达人 浏览 7969 07-10

吉利银河 A7 混动家轿 8 月 8 日全球上市,预售价 9.78 万元起

IT之家 浏览 6717 07-25

专家:特朗普疑拿日韩"祭旗" 向其他伙伴释放威胁信号

上观新闻 浏览 2737 07-09

翁虹女儿18岁成人及笄礼惊艳全网

艳姐的搞笑视频 浏览 126 10-13

1.5T+7DCT动力 捷途自由者探索+上市售13.29万元起

网易汽车 浏览 2527 07-17

媒体人:刘雁宇将以租借形式加盟吉林男篮

直播吧 浏览 222 08-20

世体:拉菲尼亚将坐在替补席额外座位上,为球队提供支持

懂球帝 浏览 77 10-27
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11