参考指南

随着大模型的发展，大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务，在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而，现有的测试基准主要集中在单智能体或纯文本环境，缺少多智能体、多模态的大模型智能体测试基准，因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench（Visual Strategic Bench）, 以用于评估视觉语言模型（VLM，Vision-Language Model）在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型？因为现实世界就是一个多智能体的环境，这样的环境给大模型的能力提出了新的挑战。

首先，在推理方面，因为多智能体环境的结果依赖于所有智能体的联合动作，所以智能体不仅需要自己能选择合理的动作，还要能够预测其他智能体的动作，即 theory of mind 的推理能力，才能在多智能体环境中取得好的效果。

其次，在决策方面，因为多智能体环境中存在智能体之间的合作和竞争，同时各智能体的策略和行为也在不断变化，使得环境变得非平稳，从而要求智能体要在不确定性更强的环境中优化自己的长期目标，对其决策能力提出了更大的挑战。

清华汪玉团队提出VS-Bench测试基准，能评估VLM多项能力

购置税从“免...

孩子是底线！...

斑马智行冲刺...

威尔逊FMV...

为什么出海企...

打造＂一个吉...

率先挺进决赛！张本智和4-1贾哈将战王楚钦与莫雷加德的胜者

里克-巴里：NBA应该设立两个MVP奖项东部MVP以及西部MVP

盘古智库发布“灵识报告”：从知识到灵识，AI时代需要认知升级

75岁吴经建被开除党籍：大搞权钱交易对家属失管失教

北京五环外正在上演抢房大战有房源直降95万元

2025光伏半年会侧记：反内卷尚未成功，仍须加倍努力！

男生眼中最好看的女生排行榜TOP1

梁婷发文谈肖战成毅：努力劝和粉丝开战

蒋凡重启阿里：一场AI重构内核的千亿实验

冒冷汗，它吓到我了...

腾讯在上海成立启善投资公司含投资管理业务

郑星源亲自下场，否认霸凌梓渝，谁在说谎？

《数据周报77》：收益超美股，银行股还值得投资吗？

奶茶店18岁店员疑扫个人码收款被开除老板公布监控

男子强奸大嫂出狱再杀人案启动再审高院披露详情

华体科技携手华为，连签三地重卡超充项目

联合国安理会通过决议，将对海地制裁延期一年

搭载6缸发动机宝马M3旅行版11月4日亮相

欧洲多国：美国赶紧“还钱”

美H-1B新规引发大混乱有印度人花8000美元买机票返美

飞重庆航班遭冰雹袭击前挡风玻璃破裂乘客:捡一条命

热搜爆了！董事长和明星女友，双双被拘！视频曝光→

2025 年 9 月科技事件日历一览表

记者：莱比锡尚未收到给西蒙斯的报价，切尔西与球员接近达成协议