参考指南

随着大模型的发展，大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务，在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而，现有的测试基准主要集中在单智能体或纯文本环境，缺少多智能体、多模态的大模型智能体测试基准，因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench（Visual Strategic Bench）, 以用于评估视觉语言模型（VLM，Vision-Language Model）在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型？因为现实世界就是一个多智能体的环境，这样的环境给大模型的能力提出了新的挑战。

首先，在推理方面，因为多智能体环境的结果依赖于所有智能体的联合动作，所以智能体不仅需要自己能选择合理的动作，还要能够预测其他智能体的动作，即 theory of mind 的推理能力，才能在多智能体环境中取得好的效果。

其次，在决策方面，因为多智能体环境中存在智能体之间的合作和竞争，同时各智能体的策略和行为也在不断变化，使得环境变得非平稳，从而要求智能体要在不确定性更强的环境中优化自己的长期目标，对其决策能力提出了更大的挑战。

清华汪玉团队提出VS-Bench测试基准，能评估VLM多项能力

当前最火的五...

擦碰中国海警...

现代N性能车...

长征十二号甲...

宇树科技王兴...

重磅嘉宾，库...

嫦娥六号月球样品最新研究成果发布揭开月背“神秘面纱”

15岁残障女孩在穿村铁路段被撞身亡铁路公司主张无责

宋佳，真的好叛逆！

小米汽车：8月交付量超过30000台

吴倩张雨剑逛超市，肢体动作比较亲密疑似复合？

firefly萤火虫第4万辆交付售11.98万元起

记者：亨克的瓦赫迪和皇社的阿兰布鲁可能成为米兰右后卫备选

许凯赵晴聊天记录疑曝光，赵晴曾劈腿与许凯交往

1700亿龙头巨额定增并赴港IPO，股东高管却纷纷减持

从0到1的突围：离轴三反打造航天“全能镜头”，向深空进发！

62岁何赛飞的“真实”，让多少明星“无地自容”

前男友转身花5亿娶闺蜜，徐梵溪的选择耐人寻味

胡塞武装称对以色列发动三次“特殊军事行动”

央行重磅发声！资金“活水”助力企业逆势增长，中小微企业贷款迎来重大利好，速看！

中科大团队实现AI图表数学逻辑理解

孩子老尿床，长大自然就好了？

首战痛击印军“阵风”，巴基斯坦空军为何如此强悍？

刘宇宁一天迎来两个喜讯，秦海璐没说谎

智元机器人或借壳上市上纬新材9连板

登舱，前往虚实交织的山海宇宙寻龙

政务大模型部署，重磅文件印发

英伟达推出智驾AI大模型马斯克泼“现实冷水”

澳网前两日综述：中国选手喜忧参半，瓦林卡不负外卡！

日本一股势力为战争罪犯翻案招魂外交部回应