关闭广告

清华汪玉团队提出VS-Bench测试基准,能评估VLM多项能力

DeepTech深科技2025-07-31 12:00:011177人阅读

随着大模型的发展,大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务,在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而,现有的测试基准主要集中在单智能体或纯文本环境,缺少多智能体、多模态的大模型智能体测试基准,因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench(Visual Strategic Bench), 以用于评估视觉语言模型(VLM,Vision-Language Model)在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型?因为现实世界就是一个多智能体的环境,这样的环境给大模型的能力提出了新的挑战。

首先,在推理方面,因为多智能体环境的结果依赖于所有智能体的联合动作,所以智能体不仅需要自己能选择合理的动作,还要能够预测其他智能体的动作,即 theory of mind 的推理能力,才能在多智能体环境中取得好的效果。

其次,在决策方面,因为多智能体环境中存在智能体之间的合作和竞争,同时各智能体的策略和行为也在不断变化,使得环境变得非平稳,从而要求智能体要在不确定性更强的环境中优化自己的长期目标,对其决策能力提出了更大的挑战。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

反转!跟队记者:巴萨全队将启程前往日本,日本行比赛将如期进行

直播吧 浏览 4181 07-25

美媒晒开拓者队史最佳阵 利拉德&罗伊&滑翔机&阿德&萨博尼斯

直播吧 浏览 690 08-09

舒淇杨幂摔太惨了,女明星都逃不过这一劫?

Yuki女人故事 浏览 8590 07-24

阿斯:特巴斯被指控泄露巴萨财务信息,若查实可能被取消任职资格

直播吧 浏览 6602 08-14

一家三口遭同村男子持刀砍死 凶手被鉴定为精神分裂

红星新闻 浏览 3485 06-29

成本超4.5亿,9小时票房仅649万,收手吧古天乐

靠谱电影君 浏览 309 10-01

豪门赘婿,惨被退货?

仙女事件簿 浏览 217 10-21

印度坠毁飞机的尾部嵌在了楼房里

现代快报 浏览 8634 06-13

多家车企打响年销目标“冲刺战”

大象新闻 浏览 6906 08-06

警方排查发现女子名下有138辆车 当事人对此毫不知情

大象新闻 浏览 421 09-19

德云社张鹤伦凌雾天唱歌,好惬意

细语 浏览 276 10-16

复出首战告负!商竣程两盘不敌达克沃斯,止步多伦多大师赛首轮

直播吧 浏览 5874 07-28

航班突然提前15小时起飞 乘客傻眼:第一次遇到

封面新闻 浏览 305 09-28

收藏=会了?你可能确诊“电子仓鼠症”

时尚COSMO 浏览 216 10-27

超震撼 8K画面感受中国战机的力与美

北青网-北京青年报 浏览 338 09-19

发改委:综合整治无序非理性竞争

新华社 浏览 373 09-11

一年前“掐点”成立 多只基金无缘“翻倍基”

证券时报 浏览 295 09-29

中超-海港2-1落后申花1分 加布莱昂纳多连场破门

网易体育 浏览 5887 08-10

全新宝马iX3将9月发布,2026年国产长轴版登场

新车评网 浏览 450 06-14

6.5元/股起拍!四川天府银行300万股股权将被法拍,去年蜀道集团刚入主

红星资本局 浏览 4655 07-16

暴雨致重庆一车行近90台车被淹 老板:损失高达600万

封面新闻 浏览 1208 07-10
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11