关闭广告

清华汪玉团队提出VS-Bench测试基准,能评估VLM多项能力

DeepTech深科技2025-07-31 12:00:011175人阅读

随着大模型的发展,大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务,在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而,现有的测试基准主要集中在单智能体或纯文本环境,缺少多智能体、多模态的大模型智能体测试基准,因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench(Visual Strategic Bench), 以用于评估视觉语言模型(VLM,Vision-Language Model)在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型?因为现实世界就是一个多智能体的环境,这样的环境给大模型的能力提出了新的挑战。

首先,在推理方面,因为多智能体环境的结果依赖于所有智能体的联合动作,所以智能体不仅需要自己能选择合理的动作,还要能够预测其他智能体的动作,即 theory of mind 的推理能力,才能在多智能体环境中取得好的效果。

其次,在决策方面,因为多智能体环境中存在智能体之间的合作和竞争,同时各智能体的策略和行为也在不断变化,使得环境变得非平稳,从而要求智能体要在不确定性更强的环境中优化自己的长期目标,对其决策能力提出了更大的挑战。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

以军称13日以来已拦截上百架伊朗无人机

国际在线 浏览 10470 06-16

45岁大威横扫新星引爆网坛:不同时代球员,何必分高下?

网球之家 浏览 5334 07-25

“鸭脖大王” 股票将被ST

中国基金报 浏览 314 09-20

"台独"分子沈伯洋十分担忧求助台陆委会:不敢离开台湾

看看新闻Knews 浏览 251 11-01

中国航空创新产品亮相巴黎航展

人民网 浏览 9671 06-24

杀疯了!续航630km,还配华为乾崑高速领航

隔壁说车老王 浏览 125 12-14

海航集团原美籍高管、首席执行官谭向东获刑6年

经济观察报 浏览 10529 07-23

兰帕德有能,考文垂队史首次取得单赛季联赛六连胜

懂球帝 浏览 228 10-26

赵露思注销微博,幕后经纪公司股权架构曝光

壹号股权 浏览 432 08-26

快手“午夜惊魂”,4亿用户信任一夜崩塌

深蓝财经 浏览 182 12-24

2比4不敌尼克斯!活塞高管:如果艾维上赛季没伤 我们能过首轮

直播吧 浏览 4651 07-24

天,他竟瘦成美男子了!

文艺馆 浏览 299 09-06

东风奕派科技首款战略新车东风风神L8重磅亮相

网易汽车 浏览 872 08-02

美联储7月会议召开在即,特朗普盟友告到法庭:要求闭门会议改公开

华尔街见闻官方 浏览 4654 07-25

越遮越高级,搞穿搭原来真不看脸?

时尚COSMO 浏览 178 11-01

Arm投资的AI芯片公司Ambiq上市首日大涨61%,两度熔断停牌

华尔街见闻官方 浏览 6727 07-31

李宁步调稳健,上半年收入增至148亿元

21世纪商业评论 浏览 434 08-23

中东局势冲击能源市场,影响多大?外资资管最新研判!

券商中国 浏览 128 03-11

客服范式将被AI智能体颠覆 天润云(02167)的未来值得期待吗?

智通财经 浏览 9240 08-07

无视千万索赔,英力士求偿百万:热刺勾串奥迪在先

体坛周报 浏览 399 08-21

追觅造车有新进度,相关3款车亮相CES,首款车还处概念车阶段

红星资本局 浏览 197 01-08
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11