关闭广告

清华汪玉团队提出VS-Bench测试基准,能评估VLM多项能力

DeepTech深科技2025-07-31 12:00:011004人阅读

随着大模型的发展,大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务,在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而,现有的测试基准主要集中在单智能体或纯文本环境,缺少多智能体、多模态的大模型智能体测试基准,因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench(Visual Strategic Bench), 以用于评估视觉语言模型(VLM,Vision-Language Model)在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型?因为现实世界就是一个多智能体的环境,这样的环境给大模型的能力提出了新的挑战。

首先,在推理方面,因为多智能体环境的结果依赖于所有智能体的联合动作,所以智能体不仅需要自己能选择合理的动作,还要能够预测其他智能体的动作,即 theory of mind 的推理能力,才能在多智能体环境中取得好的效果。

其次,在决策方面,因为多智能体环境中存在智能体之间的合作和竞争,同时各智能体的策略和行为也在不断变化,使得环境变得非平稳,从而要求智能体要在不确定性更强的环境中优化自己的长期目标,对其决策能力提出了更大的挑战。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

T恤+高腰下装=显瘦天花板,比"露奶衫"高级100倍!

Yuki女人故事 浏览 6171 07-12

这家达链公司摊上事!孕期解聘女员工?券商背景证代发公开信...

金石随笔 浏览 167 09-20

牛弹琴:白宫现前所未见一幕 欧洲领导人坐小凳子听课

现代快报 浏览 821 08-20

印度恢复向中国公民发放旅游签证

财联社 浏览 7866 07-24

伊姐周日热推:综艺《向往的生活-戏如人生》;电视剧《狸猫书生第二季》......

伊周潮流 浏览 127 10-13

詹姆斯防守差?肯扬-马丁:如果我足够聪明 那就无需过于卖力

直播吧 浏览 169 09-21

广汽×华为乾崑联合打造 "启境"品牌正式发布

网易汽车 浏览 162 09-20

世体:西班牙人会员突破32000人,季票续约率接近100%

直播吧 浏览 491 08-07

从“白幼瘦”到“气血感”,审美标准终于“健康”了?

Yuki女人故事 浏览 20 12-02

国产英伟达

诗与星空 浏览 4622 07-29

范冰冰现身张钧甯生日!晒甜蜜合照同框祝福

葫芦哥爱吐槽 浏览 181 09-05

26年前李连杰迎娶利智时,港媒10字嘲讽

律便利 浏览 3140 07-26

记者:决赛前,FIFA用无人机在曼哈顿上空投影了切尔西队徽

懂球帝 浏览 4522 07-12

一年高速迭代、超2000万安装!鸿蒙版微信用实力回应质疑

雷科技 浏览 108 10-11

独家 | 美团快乐猴签约10店,初步计划开1000家店

商业观察家 浏览 5025 07-16

周杰伦换台,短视频进入“细糠”时代

价值星球Planet 浏览 7441 07-31

俄乌冲突下的欧洲困境:制裁双刃剑

浏览 4327 07-14

方媛穿紧身衣露孕肚,和妈妈带两娃深圳游玩

TVB的四小花 浏览 5799 07-08

葡媒:本菲卡将从菲利克斯转会利雅得胜利中获得收益,约60万欧

直播吧 浏览 7064 07-29

小米卢伟冰评苹果秋季发布会:今年将会是手机形态变化的大年

环球网资讯 浏览 184 09-10

22岁重症女孩曾1天打3份工赚70万医药费:我要活下去

封面新闻 浏览 284 08-25
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11