关闭广告

清华汪玉团队提出VS-Bench测试基准,能评估VLM多项能力

DeepTech深科技2025-07-31 12:00:01667人阅读

随着大模型的发展,大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务,在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而,现有的测试基准主要集中在单智能体或纯文本环境,缺少多智能体、多模态的大模型智能体测试基准,因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench(Visual Strategic Bench), 以用于评估视觉语言模型(VLM,Vision-Language Model)在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型?因为现实世界就是一个多智能体的环境,这样的环境给大模型的能力提出了新的挑战。

首先,在推理方面,因为多智能体环境的结果依赖于所有智能体的联合动作,所以智能体不仅需要自己能选择合理的动作,还要能够预测其他智能体的动作,即 theory of mind 的推理能力,才能在多智能体环境中取得好的效果。

其次,在决策方面,因为多智能体环境中存在智能体之间的合作和竞争,同时各智能体的策略和行为也在不断变化,使得环境变得非平稳,从而要求智能体要在不确定性更强的环境中优化自己的长期目标,对其决策能力提出了更大的挑战。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

乌克兰组建与俄谈判代表团

界面新闻 浏览 219 07-23

章子怡等了25年!李安把章子怡从少女熬成大女主

素衣读史 浏览 1404 07-12

专栏 | 人们想要的,真是个咖啡馆吗?

时尚COSMO 浏览 4965 07-29

起底被制裁的8家台湾地区企业:均涉及台关键军工项目

环球网资讯 浏览 9360 07-10

C级轿车的价格屠夫 风云A9L售14.99万起

网易汽车 浏览 2853 07-10

东方大国传来利好消息,多年布局成果尽显

浏览 3014 07-14

纯电续航761km 全新奔驰CLA猎装版官图发布

车质网 浏览 2307 07-16

纺织公司40亩工业用地上,咋开起供3000人就餐酒楼?3年前已被处罚,酒楼至今仍营业

大风新闻 浏览 4354 06-25

1.5T+7DCT动力 捷途自由者探索+上市售13.29万元起

网易汽车 浏览 2184 07-17

英特尔酷睿 Ultra5 245HX PassMark 跑分超 i5-14500HX 约 30~40%

IT之家 浏览 957 07-13

孙宏斌背水一战,融创债务重组攻坚

YOUNG财经 浏览 3367 07-18

中科闻歌WAIC 2025亮眼表现

脑极体 浏览 7403 07-30

「DeepSeek二代」来袭!数学暴击o3,英伟达开源LLM登顶

新智元 浏览 5547 07-21

打破国产剧魔咒!肌肉女杀手不用高跟鞋打戏,网友:不是纸片人了

娱乐白名单 浏览 368 07-28

预售价27.99万起!乐道L90这波「掀桌」能成吗?

科技丛林 浏览 8304 07-12

13.98万起!海狮06上市,车圈的超级“经济实用男”?

电车通 浏览 9945 07-25

河北张家口崇礼发生3.4级地震 震源深度20千米

中国地震台网速报 浏览 4416 07-10

天问二号为啥要去这颗小行星 这次"取样"又要经历哪些难关?

上观新闻 浏览 9693 05-29

姆巴佩反讽式辟谣拒绝担任奥运火炬手:我还说过想当法国男篮控卫

直播吧 浏览 4700 07-26

泰军方向26国发函:柬埔寨率先开火并袭击平民

央视新闻客户端 浏览 2358 07-27

50+女性的逆龄穿搭密码,掌握3个核心技巧,穿出优雅气质

静儿时尚达人 浏览 9390 07-07
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11