关闭广告

清华汪玉团队提出VS-Bench测试基准,能评估VLM多项能力

DeepTech深科技2025-07-31 12:00:011169人阅读

随着大模型的发展,大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务,在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而,现有的测试基准主要集中在单智能体或纯文本环境,缺少多智能体、多模态的大模型智能体测试基准,因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench(Visual Strategic Bench), 以用于评估视觉语言模型(VLM,Vision-Language Model)在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型?因为现实世界就是一个多智能体的环境,这样的环境给大模型的能力提出了新的挑战。

首先,在推理方面,因为多智能体环境的结果依赖于所有智能体的联合动作,所以智能体不仅需要自己能选择合理的动作,还要能够预测其他智能体的动作,即 theory of mind 的推理能力,才能在多智能体环境中取得好的效果。

其次,在决策方面,因为多智能体环境中存在智能体之间的合作和竞争,同时各智能体的策略和行为也在不断变化,使得环境变得非平稳,从而要求智能体要在不确定性更强的环境中优化自己的长期目标,对其决策能力提出了更大的挑战。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

几乎每晚输出数百架 俄军一周发射的无人机抵上过去一年

上观新闻 浏览 1837 07-16

科贝:姆巴佩向五名法国警察捐赠18万欧元;相关行为正受调查

懂球帝 浏览 1532 07-18

蓝色+灰色、红色+棕色,这4组配色怎么搭都好看!

LinkFashion 浏览 110 01-08

中国在地下700米灌入2万吨液体 美西方专家直呼难想象

鬼谷子思维 浏览 391 09-18

刷入 OpenHarmony 的一加 6T 手机已支持运行华为应用市场

IT之家 浏览 376 09-01

ICCV 2025满分论文:一个模型实现空间理解与主动探索大统一

机器之心Pro 浏览 4073 07-14

拉萨的年轻人,原来是这样生活的

幕味儿 浏览 230 11-03

TVB对中医“下手”了,新剧《侠医》定档,陈豪、张曦雯再度联手

最爱酷影视 浏览 443 08-20

官宣必糊?董璇结婚刚一个月,倪萍说的太对

白面书誏 浏览 1028 08-05

好久不见!吉尔伯托-席尔瓦与萨尼亚将陪同阿森纳参加亚洲季前赛

直播吧 浏览 1040 07-18

印尼不顾中国跟美签约 转头美方喊话:中国有美国要的

掌青说历史 浏览 3147 07-17

中美又一关键套利交易彻底终结

边际财经实验室 浏览 7851 07-21

京沪高铁:一道复杂的算术题

锦缎研究院 浏览 178 12-29

海航创始人陈峰,有期徒刑12年

财视传播 浏览 3002 07-18

中国稀土创始人被踢出董事会 否认2亿债务称被外商坑

界面新闻 浏览 541 08-23

遇见上合 共享津彩|上合峰会新闻中心的奇妙时刻

上观新闻 浏览 404 09-01

许荔莎晒牵手画面反击于正!持续曝许凯出轨实锤,直言太寒心了

萌神木木 浏览 351 08-22

美国突袭委未寻求国会批准 鲁比奥辩解:并非入侵行动

环球网资讯 浏览 178 01-06

宽基ETF被抢筹,市场风格走向何方?

国际金融报 浏览 171 12-19

全家花96万坐熊猫专列 吃的是五菜一汤的盒饭

大风新闻 浏览 465 08-27

三亚警方辟谣"潜水教练反复把女孩压向水底":恶意剪辑

扬子晚报 浏览 5062 07-06
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11