关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2025-10-20 00:00:02280人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

泽连斯基:反对“用乌克兰领土交换和平”

澎湃新闻 浏览 10161 08-10

2.4亿!莫兰特谈JJJ续约:他应得的 我不懂工资帽&以为合同会更大

直播吧 浏览 3145 07-14

比亚迪明星高管赵长江确认离职,已在比亚迪工作16年

红星资本局 浏览 272 10-25

闫学晶"哭穷"引争议被禁止关注 知名品牌终止其代言

极目新闻 浏览 204 01-12

全世界门槛最高的舞会,投胎大赛赢家都有谁?

FUFASHION 浏览 199 12-21

59岁巩俐近照曝光,和法国丈夫约会几乎无交流,下巴胖出三层肉

萌神木木 浏览 5094 08-08

蔡英文近期动作频频 王鸿薇:她觉得赖清德"不行了"

海峡导报社 浏览 281 10-23

媒体:泽连斯基的"听话"不情不愿 离开白宫后发了个帖

新民周刊 浏览 446 08-20

布局海洋经济核心资产

证券市场周刊 浏览 1966 07-15

金山办公放不下协同梦

光子星球 浏览 466 08-21

红不过十天就塌房!男星田栩宁疑似孕期出轨?

萌神木木 浏览 9776 07-09

曼联拒绝贝蒂斯2000万求购安东尼,曝拉爵想卖半亿!C罗或成救星

罗米的曼联博客 浏览 6860 07-29

聚焦世界人工智能大会 卡奥斯多项AI+工业互联网成果发布

人民网 浏览 7752 07-28

2026款奔驰GLC AMG 43 4MATIC上市 售58.9万

车质网 浏览 186 10-23

韩国警方对15名济州航空空难事故相关责任人立案调查

新民晚报 浏览 9955 06-22

扎克伯格再出手,OpenAI又有两员大将被打包挖走

网易科技报道 浏览 2972 07-17

每体:巴萨将于当地时间周五上午11点飞往日本,飞约13个小时

懂球帝 浏览 7546 07-25

欧洲媒体人:凯-琼斯希望意甲博洛尼亚再等他一些时间

直播吧 浏览 336 08-23

皮尔斯:库里强于詹姆斯,库里3次战胜詹姆斯还在巅峰詹时拿过全票MVP

懂球帝 浏览 181 12-16

日航64岁机长上班前连喝三瓶啤酒 称身体不适临时请假

潇湘晨报 浏览 328 09-04

国家互联网应急中心提示“龙虾”风险

澎湃新闻 浏览 119 03-11
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11