关闭广告

清华汪玉团队提出VS-Bench测试基准,能评估VLM多项能力

DeepTech深科技2025-07-31 12:00:011241人阅读

随着大模型的发展,大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务,在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而,现有的测试基准主要集中在单智能体或纯文本环境,缺少多智能体、多模态的大模型智能体测试基准,因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench(Visual Strategic Bench), 以用于评估视觉语言模型(VLM,Vision-Language Model)在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型?因为现实世界就是一个多智能体的环境,这样的环境给大模型的能力提出了新的挑战。

首先,在推理方面,因为多智能体环境的结果依赖于所有智能体的联合动作,所以智能体不仅需要自己能选择合理的动作,还要能够预测其他智能体的动作,即 theory of mind 的推理能力,才能在多智能体环境中取得好的效果。

其次,在决策方面,因为多智能体环境中存在智能体之间的合作和竞争,同时各智能体的策略和行为也在不断变化,使得环境变得非平稳,从而要求智能体要在不确定性更强的环境中优化自己的长期目标,对其决策能力提出了更大的挑战。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

WTT横滨冠军赛:王艺迪4-2战胜陈熠,晋级女单四强

懂球帝 浏览 4986 08-10

享界S9T无伪装路测视频曝光,鸿蒙智行首款旅行车享界S9T亮相草原

雷科技 浏览 10108 07-22

委内瑞拉外长称已接待美驻委临时代办

国际在线 浏览 261 02-01

Model Y L 入局、理想i8开启预订 六座纯电SUV大战开打

财联社 浏览 5019 07-18

高市早苗成功"策反"对手 分析称其当选首相几乎成定局

红星新闻 浏览 337 10-20

营收翻倍+亏损收窄!广东导远自研智驾定位系统,能否凭硬核技术闯关港股?|港E声

时代周报 浏览 266 01-07

美军在日本部署"堤丰"首次公开 被指"明确挑衅中国"

澎湃新闻 浏览 482 09-17

智驾下一个关键挑战,是不被别人摘“桃子”?

虎嗅APP 浏览 202 11-27

谢什科转会标价曝光!曼联曾拒绝200万签他,一特殊优势完胜纽卡

罗米的曼联博客 浏览 2066 07-31

本田发布纯电小型车N-ONE e:官图,WLTC续航超270公里

皆电 浏览 1063 07-31

郑恺晒与陈赫等10人合影,被扒P掉7处烟盒打火机,遭吐槽一群老登

萌神木木 浏览 243 12-02

贵=好用?这个刚需我们试了一堆才选到合适的

黎贝卡的异想世界 浏览 387 10-16

于正谈杨幂真翻身了

大龄女一晓彤 浏览 601 08-22

贝克汉姆和长子彻底闹掰!布鲁克林:我们只能通过律师沟通

素素娱乐 浏览 206 01-11

巴顿社媒谈津门虎不敌浙江:尽力了大家!

直播吧 浏览 515 08-21

上年纪的女人,建议衣服松一点,颜色淡一些,更高级大方!

静儿时尚达人 浏览 528 08-19

记者:哲凯赖什本赛季预计将取代萨卡成为队内第一点球手

懂球帝 浏览 491 08-19

更为优雅 阿斯顿·马丁DB12棕榈滩版官图发布

车质网 浏览 488 05-29

《南京照相馆》上映5天,幸福蓝海股价暴涨7成

斑马消费 浏览 3584 07-30

李斌被告!蔚来被指虚增收入和利润,港股闪崩13%

深蓝财经 浏览 407 10-17

智元,想跟宇树争第一

定焦One 浏览 141 04-29
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11