关闭广告

清华汪玉团队提出VS-Bench测试基准,能评估VLM多项能力

DeepTech深科技2025-07-31 12:00:011001人阅读

随着大模型的发展,大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务,在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而,现有的测试基准主要集中在单智能体或纯文本环境,缺少多智能体、多模态的大模型智能体测试基准,因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench(Visual Strategic Bench), 以用于评估视觉语言模型(VLM,Vision-Language Model)在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型?因为现实世界就是一个多智能体的环境,这样的环境给大模型的能力提出了新的挑战。

首先,在推理方面,因为多智能体环境的结果依赖于所有智能体的联合动作,所以智能体不仅需要自己能选择合理的动作,还要能够预测其他智能体的动作,即 theory of mind 的推理能力,才能在多智能体环境中取得好的效果。

其次,在决策方面,因为多智能体环境中存在智能体之间的合作和竞争,同时各智能体的策略和行为也在不断变化,使得环境变得非平稳,从而要求智能体要在不确定性更强的环境中优化自己的长期目标,对其决策能力提出了更大的挑战。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

图片报:堂安律尚未与法兰克福谈妥个人条款,弗赖堡要价2000万欧

直播吧 浏览 1570 07-17

94岁杨少华离世,离世当天还参加活动,最后露面骨瘦嶙峋没精神

扒虾侃娱 浏览 3825 07-10

民生银行年薪377万副行长卸任,系两年多第8位干到退休的高管

湘财Plus 浏览 9385 07-24

Win 11升级这个劫,我是非渡不可吗?

差评XPIN 浏览 8718 07-24

珠峰暴雪向导"人肉开路"带百人突围:最陡坡度有60度

极目新闻 浏览 98 10-15

爱康集团起诉"体检10年未见异常却患癌"女子:确认无责

界面新闻 浏览 8244 07-30

六人登记参选国民党主席 均已针对两岸关系表态

环球网资讯 浏览 187 09-20

外交部副部长孙卫东已兼任部机关党委书记

澎湃新闻 浏览 3047 06-24

拥有大车的空间小车的灵活,新一代智己LS6开启智能出行新体验

澎湃新闻 浏览 264 08-20

被预制菜笼罩,商场餐饮大撤退?

餐饮老板内参 浏览 114 10-13

抢占日本本土K-car市场 比亚迪Racco亮相

网易汽车 浏览 72 10-30

摊上个结婚7次的爸,她彻底炸了

Yuki女人故事 浏览 1797 07-12

“吃苦教育”研学营,正在毁掉多少家庭?

快刀财经 浏览 4353 07-13

鲁政委:区域性要素市场化配置综合改革试点举措梳理

首席经济学家论坛 浏览 161 09-21

比阔腿裤还时髦?今年秋天一定要有“这条裤子”,减龄又松弛

LinkFashion 浏览 259 08-23

黄河壶口瀑布再现90版50元人民币上壮美景观

上游新闻 浏览 242 08-22

名古屋望与南京恢复交流 前市长曾称南京大屠杀不存在

新民周刊 浏览 3419 08-06

辛纳2-0德米纳尔,12连胜对手晋级ATP500维也纳站决赛

懂球帝 浏览 67 10-26

A股年内首次站上3500点,牛市全面启动要具备哪些条件?

郭施亮 浏览 4056 07-13

李小璐二胎风波升级 和贾乃亮复婚传闻才真相大白

新语爱八卦 浏览 3045 07-10

美开应答机运核武器 俄准备全面对抗

央视新闻客户端 浏览 7604 07-31
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11