关闭广告

清华汪玉团队提出VS-Bench测试基准,能评估VLM多项能力

DeepTech深科技2025-07-31 12:00:011171人阅读

随着大模型的发展,大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务,在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而,现有的测试基准主要集中在单智能体或纯文本环境,缺少多智能体、多模态的大模型智能体测试基准,因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench(Visual Strategic Bench), 以用于评估视觉语言模型(VLM,Vision-Language Model)在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型?因为现实世界就是一个多智能体的环境,这样的环境给大模型的能力提出了新的挑战。

首先,在推理方面,因为多智能体环境的结果依赖于所有智能体的联合动作,所以智能体不仅需要自己能选择合理的动作,还要能够预测其他智能体的动作,即 theory of mind 的推理能力,才能在多智能体环境中取得好的效果。

其次,在决策方面,因为多智能体环境中存在智能体之间的合作和竞争,同时各智能体的策略和行为也在不断变化,使得环境变得非平稳,从而要求智能体要在不确定性更强的环境中优化自己的长期目标,对其决策能力提出了更大的挑战。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

具身智能开启汽车产业万亿新赛道

车质网 浏览 216 11-11

长城魏建军:0公里二手车,坑了新车坑旧车!

淘车岛胡帅 浏览 435 06-02

希瑞发布智能戒指 “全天候”健康生态野心初显

环球网资讯 浏览 279 10-24

苦日子来了,大家做好长期打算吧!

LinkFashion 浏览 3796 07-17

上年纪的女人买“裤子”,不妨按照这3个原则试试,显瘦时髦

静儿时尚达人 浏览 278 10-04

17岁高中生患白血病 同学病房外哭着约定等他回来

红星新闻 浏览 1751 06-16

300637,实控人之一被立案调查

中国基金报 浏览 404 08-26

破坏卢少骅制毒,被周少雄彻底枪杀,《扫毒风暴》老鬼正式下线!

电和影 浏览 1510 07-24

乌外长:美已邀乌再赴美继续和平谈判

上观新闻 浏览 185 12-04

无法参选国民党主席 卢秀燕正式表态并亲自透露原因

海峡导报社 浏览 497 08-25

具俊晔守大S墓地,献花时不忍落泪

素素娱乐 浏览 4158 07-28

五到十二:财务管理不善如何将狼队置于危险境地

绿茵情报局 浏览 171 01-28

网友称38年前的威力洗衣机还能用 厂家:公司没有倒闭

极目新闻 浏览 411 09-10

欧盟官员:酝酿对美关税政策反制措施 包含所有选项

央视新闻客户端 浏览 7442 05-07

三大航这半年:国航、东航减亏 国际航线成关键

北京商报 浏览 402 09-01

WAIC前线|阿里云百炼入选2025WAIC“镇馆之宝”

网易科技报道 浏览 4307 07-27

黄杨钿甜星途被毁 戴假货没人找她代言

汉史趣闻 浏览 1548 07-18

让“死嘴”会说多说,不太好听又如何

时尚COSMO 浏览 189 11-16

特朗普口误说要去俄罗斯见普京 计划让俄乌都让出领土

红星新闻 浏览 5147 08-13

沙特,一部活色生香的《一千零一夜》

时尚COSMO 浏览 251 10-25

定价会有惊喜?全新速腾有发光Logo+大屏

网易汽车 浏览 412 06-08
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11