关闭广告

南洋理工、腾讯等机构联手突破:让AI像人一样"指点"图片中的东西

科技行者2025-11-11 00:00:01246人阅读


你有没有试过这样的体验:跟朋友聊天时,你想让他看看照片里的某个东西,但又不知道怎么准确描述它的位置?你可能会说"就是那个红色的杯子",朋友却问"哪个红色杯子?"这种沟通障碍在人工智能领域同样存在,而且更加复杂。

由南洋理工大学、腾讯微信视觉团队、新加坡科技研究局等多家知名机构组成的国际研究团队,最近在这个问题上取得了重要突破。他们的研究成果发表在了计算机视觉领域的顶级学术平台上,论文题目是"PATCH-AS-DECODABLE-TOKEN: TOWARDS UNIFIED MULTI-MODAL VISION TASKS IN MLLMS"(arXiv:2510.01954v1),感兴趣的读者可以通过这个编号查阅完整论文。

这项研究解决的核心问题可以用一个简单场景来理解:当你问AI"这张照片里有什么?"时,传统AI只能告诉你"有一只猫、一个杯子、一张桌子",但它无法像人一样直接"指出"这些东西的具体位置。更糟糕的是,当你要求AI找到"桌子上那个蓝色杯子"时,它往往会给出一串看起来很专业但实际上并不准确的数字坐标,比如"[245, 156, 378, 298]",普通人根本无法理解这些数字代表什么。

<
上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

所有人,都小看了宗馥莉

智谷趋势 浏览 310 09-10

中央一号文件来了!今年有哪些“新表述”?

农民日报 浏览 165 02-04

500亿信托隐雷暗藏,国华人寿母公司宣布主动退市

达摩财经 浏览 502 08-12

英超头号争议诞生!82分钟被判点球 球员看懵了 英媒:丑闻

叶青足球世界 浏览 449 08-19

国产教育大模型亮相WAIC,这位“超级助手”让学生告别机械刷题

文汇报 浏览 10177 07-27

拉亚:我们非常欢迎凯帕的加盟;莫斯克拉会成为顶级球员

懂球帝 浏览 5826 07-29

或命名为AMG GT SUV AMG纯电SUV谍照曝光

车质网 浏览 280 10-16

租下公立医院后 原副县长非法集资近7亿直至“爆雷”

中国新闻周刊 浏览 521 08-27

中国海警船驱离菲巡逻船与军舰发生冲撞 国防部回应

环球网资讯 浏览 425 08-16

拥有50万订阅的视频博主签约法乙波城队,将代表B队出战

懂球帝 浏览 456 08-24

俄媒披露“从空中拍摄的安-24飞机坠毁地”画面

环球网资讯 浏览 5520 07-25

女人到了三四十岁穿衣要显贵,这些穿搭值得借鉴,大方又好看

静儿时尚达人 浏览 118 03-14

不走运!18分钟接连乌龙+直红的库比斯是米兰未来队的队长

直播吧 浏览 2134 08-11

美国核弹头重回英国牵动全球神经

环球网资讯 浏览 8060 07-23

何猷君怒了:从“出轨生子”到“和亲妹不清不楚”?越传越离谱!

娱乐白名单 浏览 5959 08-11

实现多个国际首次!美媒:脑机接口技术,“中国正迎头赶上”

环球网资讯 浏览 4038 07-22

赖清德只字不提台湾光复 还在公然纪念"古宁头战役"

海峡导报社 浏览 284 10-27

广厦总经理:再困难也要先解决俱乐部问题 布朗薪资联盟中等水平

直播吧 浏览 395 09-01

英国F-35战机备降印度后无法复飞 或需拆解后送回英国

环球网资讯 浏览 2720 07-04

彻底改写Transformer!「能量驱动架构」横空出世,通用推理时代要来了?

新智元 浏览 7193 07-14

太突然,若热-科斯塔心脏骤停前几分钟还在接受采访

懂球帝 浏览 2866 08-06
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11