关闭广告

清华汪玉团队提出VS-Bench测试基准,能评估VLM多项能力

DeepTech深科技2025-07-31 12:00:011239人阅读

随着大模型的发展,大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务,在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而,现有的测试基准主要集中在单智能体或纯文本环境,缺少多智能体、多模态的大模型智能体测试基准,因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench(Visual Strategic Bench), 以用于评估视觉语言模型(VLM,Vision-Language Model)在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型?因为现实世界就是一个多智能体的环境,这样的环境给大模型的能力提出了新的挑战。

首先,在推理方面,因为多智能体环境的结果依赖于所有智能体的联合动作,所以智能体不仅需要自己能选择合理的动作,还要能够预测其他智能体的动作,即 theory of mind 的推理能力,才能在多智能体环境中取得好的效果。

其次,在决策方面,因为多智能体环境中存在智能体之间的合作和竞争,同时各智能体的策略和行为也在不断变化,使得环境变得非平稳,从而要求智能体要在不确定性更强的环境中优化自己的长期目标,对其决策能力提出了更大的挑战。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

小米汽车:8月交付量超过30000台

网易科技报道 浏览 444 09-02

吴倩张雨剑逛超市,肢体动作比较亲密疑似复合?

苏子Vlog一 浏览 4685 08-07

firefly萤火虫第4万辆交付 售11.98万元起

太平洋汽车 浏览 276 01-13

记者:亨克的瓦赫迪和皇社的阿兰布鲁可能成为米兰右后卫备选

懂球帝 浏览 8060 07-25

许凯赵晴聊天记录疑曝光,赵晴曾劈腿与许凯交往

小咪侃娱圈 浏览 477 08-24

1700亿龙头巨额定增并赴港IPO,股东高管却纷纷减持

尺度商业 浏览 10062 08-07

从0到1的突围:离轴三反打造航天“全能镜头”,向深空进发!

中国科普博览 浏览 10258 07-22

62岁何赛飞的“真实”,让多少明星“无地自容”

可乐谈情感 浏览 364 10-26

前男友转身花5亿娶闺蜜,徐梵溪的选择耐人寻味

失宠的小野猪 浏览 290 01-05

胡塞武装称对以色列发动三次“特殊军事行动”

央视新闻客户端 浏览 1478 08-04

央行重磅发声!资金“活水”助力企业逆势增长,中小微企业贷款迎来重大利好,速看!

杠杆游戏 浏览 487 08-25

中科大团队实现AI图表数学逻辑理解

科技行者 浏览 355 11-04

孩子老尿床,长大自然就好了?

网易健康 浏览 4255 06-27

首战痛击印军“阵风”,巴基斯坦空军为何如此强悍?

大象新闻 浏览 5723 05-09

刘宇宁一天迎来两个喜讯,秦海璐没说谎

贵州小娟 浏览 287 01-05

智元机器人或借壳上市 上纬新材9连板

网易财经 浏览 7671 07-21

登舱,前往虚实交织的山海宇宙寻龙

文汇报 浏览 2475 07-17

政务大模型部署,重磅文件印发

智东西 浏览 274 10-13

英伟达推出智驾AI大模型 马斯克泼“现实冷水”

网易汽车 浏览 268 01-07

澳网前两日综述:中国选手喜忧参半,瓦林卡不负外卡!

网球之家 浏览 303 01-20

日本一股势力为战争罪犯翻案招魂 外交部回应

人民日报 浏览 296 08-29
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11