关闭广告

清华汪玉团队提出VS-Bench测试基准,能评估VLM多项能力

DeepTech深科技2025-07-31 12:00:011236人阅读

随着大模型的发展,大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务,在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而,现有的测试基准主要集中在单智能体或纯文本环境,缺少多智能体、多模态的大模型智能体测试基准,因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench(Visual Strategic Bench), 以用于评估视觉语言模型(VLM,Vision-Language Model)在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型?因为现实世界就是一个多智能体的环境,这样的环境给大模型的能力提出了新的挑战。

首先,在推理方面,因为多智能体环境的结果依赖于所有智能体的联合动作,所以智能体不仅需要自己能选择合理的动作,还要能够预测其他智能体的动作,即 theory of mind 的推理能力,才能在多智能体环境中取得好的效果。

其次,在决策方面,因为多智能体环境中存在智能体之间的合作和竞争,同时各智能体的策略和行为也在不断变化,使得环境变得非平稳,从而要求智能体要在不确定性更强的环境中优化自己的长期目标,对其决策能力提出了更大的挑战。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

市值26亿豪掷32亿跨界“钠电”,环保企业“同兴科技”胜算几何?

时代周报 浏览 295 12-12

华纳兄弟筹拍科比新传记电影 从篮网险第8顺位选人讲述幕后故事

醉卧浮生 浏览 532 08-23

黄杨钿甜事件通报!耳环是假货父亲两项违规,母亲受访称好友相送

萌神木木 浏览 2710 07-17

奚梦瑶手捂肚子表情痛苦,小腹隆起引三胎猜疑

情感大头说说 浏览 112 05-09

智算中心引发用电量激增,施耐德电气提出“算电协同”三层架构方案

上观新闻 浏览 3140 07-27

取消在越南停靠计划 美航母驶向中东

每日经济新闻 浏览 8048 06-18

中东传噩耗导弹从天而降狂轰以色列 美英法德集体失声

文雅笔墨 浏览 478 09-17

2232万!吉迪目前是公牛新赛季工资最高的球员

直播吧 浏览 405 09-10

37岁朱一龙再破天花板,央媒采访含泪讲述平凡人

乡野小珥 浏览 8432 08-09

美媒:杨瀚森展现出身体和技术的结合 让人想到约基奇申京大小加

直播吧 浏览 4402 07-18

德阳装备,何以植入全球“绿网”?

正经社 浏览 419 09-21

记者手记:上合智汇,共赴未来之约

新华社 浏览 463 09-01

萧华首次回应快艇小卡一事:正在调查

体坛周报 浏览 471 09-11

三名中央委员职务有变动 均是“60后”

鲁中晨报 浏览 649 08-28

不愧牛市!证券公司赚疯了,有人利润翻5倍

说财猫 浏览 257 11-03

红塔证券“限消”速撤背后

国际金融报 浏览 445 09-10

"兔子警官"入围最美浙警 曾因执勤视频在网络上走红

环球网资讯 浏览 276 12-21

利物浦女足前主帅比尔德的葬礼举行,超过六百人参加

懂球帝 浏览 335 10-18

沉默的荣耀大结局前瞻,最惨角色出炉,果然不幸的人各有各的不幸

娱乐圈笔娱君 浏览 394 10-17

同曦126-123双加时逆转深圳,郭昊文31+6+10,史密斯空砍44分

懂球帝 浏览 269 02-04

被Meta点醒,苹果砍掉廉价头显,押注智能眼镜

网易科技报道 浏览 384 10-13
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11