关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2025-10-20 00:00:02383人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美媒调侃:吉迪因为三分绝杀湖人这球拿到了1亿的大合同

直播吧 浏览 435 09-10

巴萨旧将:沙特俱乐部愿意3000万签费兰,并给球员3000万工资

懂球帝 浏览 5583 07-31

国家统计局:8月份国民经济运行总体平稳、稳中有进

界面新闻 浏览 376 09-15

价格或35万起 理想i8标配双电机四驱

网易汽车 浏览 4035 07-11

马斯克对全球宅男下手:AI女友谈恋爱 讲话"少儿不宜"

每日经济新闻 浏览 4815 07-17

大连一航班因旅客突发疾病返航 乘客:等了约一小时后复飞

极目新闻 浏览 3259 07-10

赵建:货币苏醒

首席经济学家论坛 浏览 313 10-22

最高363km纯电续航 魏牌V9X远山详解

网易汽车 浏览 226 02-23

买海豹06EV最纠结的事情,这辆车的真实续航到底是多少?

车有梗 浏览 517 06-23

法院将拍卖两只涉刑案的百达翡丽腕表 起拍价超6000万

红星新闻 浏览 2393 08-13

苹果流媒体服务Apple TV+涨价30%,月费升至12.99美元

界面新闻 浏览 408 08-22

围巾,女人气质的延伸

Yuki女人故事 浏览 369 11-05

美国务卿:美方未参与打击伊朗

澎湃新闻 浏览 6428 06-13

越涨越卖?英伟达市值冲破5万亿,黄仁勋半年套现10亿美元

华尔街见闻官方 浏览 326 11-01

上海七旬阿婆将二室一厅堆成垃圾山 臭气熏天老鼠乱窜

极目新闻 浏览 2560 07-23

极氪12月交付超3万台,2025全年销量超22.4万台

大象新闻 浏览 284 01-02

唇疱疹和口腔溃疡是"同伙"吗?

网易健康 浏览 1407 04-18

中国加速构建具身智能数据标准体系 “浦江X”平台发布

上观新闻 浏览 430 09-22

伊姐周日热推:电视剧《生命树》;电视剧《风过留痕》......

伊周潮流 浏览 275 02-02

扎克伯格深夜发文:个人的超级智能

学术头条 浏览 3749 07-31

黄仁勋亲赴台积电“讨要更多芯片” 回应存储短缺、涨价等问题

财联社 浏览 328 11-10
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11