参考指南

随着大模型的发展，大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务，在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而，现有的测试基准主要集中在单智能体或纯文本环境，缺少多智能体、多模态的大模型智能体测试基准，因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench（Visual Strategic Bench）, 以用于评估视觉语言模型（VLM，Vision-Language Model）在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型？因为现实世界就是一个多智能体的环境，这样的环境给大模型的能力提出了新的挑战。

首先，在推理方面，因为多智能体环境的结果依赖于所有智能体的联合动作，所以智能体不仅需要自己能选择合理的动作，还要能够预测其他智能体的动作，即 theory of mind 的推理能力，才能在多智能体环境中取得好的效果。

其次，在决策方面，因为多智能体环境中存在智能体之间的合作和竞争，同时各智能体的策略和行为也在不断变化，使得环境变得非平稳，从而要求智能体要在不确定性更强的环境中优化自己的长期目标，对其决策能力提出了更大的挑战。

清华汪玉团队提出VS-Bench测试基准，能评估VLM多项能力

全球第一大女...

大厂边缘的中...

续写变革篇章...

那些跟着拼多...

广汽传祺1月...

再现巨额压单...

宝马 iX3 宣传片现神秘四门电动轿车，融合i8与Neue Klasse设计

贝森特暗示：美联储应对9月降息50基点持开放态度，希望米兰下月议息会议前上任

友谊赛：巴萨传奇队0-2河床传奇队，25781名观众现场观战

WTT横滨冠军赛：王艺迪4-2战胜陈熠，晋级女单四强

享界S9T无伪装路测视频曝光，鸿蒙智行首款旅行车享界S9T亮相草原

委内瑞拉外长称已接待美驻委临时代办

Model Y L 入局、理想i8开启预订六座纯电SUV大战开打

高市早苗成功＂策反＂对手分析称其当选首相几乎成定局

营收翻倍+亏损收窄！广东导远自研智驾定位系统，能否凭硬核技术闯关港股？|港E声

美军在日本部署＂堤丰＂首次公开被指＂明确挑衅中国＂

智驾下一个关键挑战，是不被别人摘“桃子”？

谢什科转会标价曝光！曼联曾拒绝200万签他，一特殊优势完胜纽卡

本田发布纯电小型车N-ONE e:官图，WLTC续航超270公里

郑恺晒与陈赫等10人合影，被扒P掉7处烟盒打火机，遭吐槽一群老登

贵=好用？这个刚需我们试了一堆才选到合适的

于正谈杨幂真翻身了

贝克汉姆和长子彻底闹掰！布鲁克林：我们只能通过律师沟通

巴顿社媒谈津门虎不敌浙江：尽力了大家！

上年纪的女人，建议衣服松一点，颜色淡一些，更高级大方！

记者：哲凯赖什本赛季预计将取代萨卡成为队内第一点球手

更为优雅阿斯顿·马丁DB12棕榈滩版官图发布

《南京照相馆》上映5天，幸福蓝海股价暴涨7成

李斌被告！蔚来被指虚增收入和利润，港股闪崩13%

智元，想跟宇树争第一