关闭广告

清华汪玉团队提出VS-Bench测试基准,能评估VLM多项能力

DeepTech深科技2025-07-31 12:00:011174人阅读

随着大模型的发展,大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务,在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而,现有的测试基准主要集中在单智能体或纯文本环境,缺少多智能体、多模态的大模型智能体测试基准,因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench(Visual Strategic Bench), 以用于评估视觉语言模型(VLM,Vision-Language Model)在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型?因为现实世界就是一个多智能体的环境,这样的环境给大模型的能力提出了新的挑战。

首先,在推理方面,因为多智能体环境的结果依赖于所有智能体的联合动作,所以智能体不仅需要自己能选择合理的动作,还要能够预测其他智能体的动作,即 theory of mind 的推理能力,才能在多智能体环境中取得好的效果。

其次,在决策方面,因为多智能体环境中存在智能体之间的合作和竞争,同时各智能体的策略和行为也在不断变化,使得环境变得非平稳,从而要求智能体要在不确定性更强的环境中优化自己的长期目标,对其决策能力提出了更大的挑战。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

查尔莫斯历史前五控卫:魔术师、保罗、斯托克顿、基德、欧文

直播吧 浏览 330 09-21

前安永合伙人,因酒吧斗殴被解雇,早前涉嫌勾引已婚女合伙人被警告

财通社 浏览 224 11-03

埃迪-豪7次面对伯恩茅斯场均积分0.7分,仅比对阵曼城、红军更多

直播吧 浏览 299 09-22

乌称哈尔科夫遭俄袭击5死18伤

界面新闻 浏览 412 08-19

特朗普再发最后通牒:限俄罗斯在12天内达成和平协议

财联社 浏览 8907 07-29

巴菲特都被套40%!全球酒类股蒸发8300亿美元,华尔街呼吁抄底

深蓝财经 浏览 244 11-03

星巴克王牌品类茶拿铁系列焕新升级,真茶真奶 真茶拿铁

财经无忌 浏览 431 08-19

银河系列风格 全新吉利帝豪内饰谍照曝光

车质网 浏览 394 08-15

文汇视讯 | “我要打十个!”世界人工智能大会现场上演“机器人拳击大赛”

文汇报 浏览 3736 07-27

国常会:切实规范新能源汽车产业竞争秩序

网易财经 浏览 1089 07-17

太阳报:会员涨价仍买不到揭幕战门票,切尔西部分球迷很愤怒

懂球帝 浏览 10329 07-25

联合国报告认定以色列在加沙地带犯下种族灭绝罪

央视新闻客户端 浏览 317 09-17

英伟达CEO黄仁勋按计划售股,公司H20芯片或重启对华销售

环球网资讯 浏览 9292 07-21

于正回复签约七七的后续,不满对方着急变现

阿废冷眼观察所 浏览 2975 07-22

归国四子感情现状:黄子韬要办婚礼鹿晗疑似复合,张艺兴还是单身

萌神木木 浏览 470 08-12

揭秘你意想不到的“光敏”食物

网易健康 浏览 9797 02-26

"俄罗斯院士"33亿元投资闹剧 自称花了8年删网上资料

中国新闻周刊 浏览 508 08-18

沪媒:颜骏凌神级表现像一面镜子,清晰照出了申花门将位置的短板

直播吧 浏览 1859 08-10

太阳报:曼联17岁中场思韦茨随一线队训练,被比作佩德里

懂球帝 浏览 271 10-13

纯电续航215km 猛士M817 Max+版上市售36.99万元

网易汽车 浏览 330 09-30

2026款奔驰GLC AMG 43 4MATIC上市 售58.9万

车质网 浏览 186 10-23
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11