关闭广告

清华汪玉团队提出VS-Bench测试基准,能评估VLM多项能力

DeepTech深科技2025-07-31 12:00:011002人阅读

随着大模型的发展,大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务,在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而,现有的测试基准主要集中在单智能体或纯文本环境,缺少多智能体、多模态的大模型智能体测试基准,因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench(Visual Strategic Bench), 以用于评估视觉语言模型(VLM,Vision-Language Model)在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型?因为现实世界就是一个多智能体的环境,这样的环境给大模型的能力提出了新的挑战。

首先,在推理方面,因为多智能体环境的结果依赖于所有智能体的联合动作,所以智能体不仅需要自己能选择合理的动作,还要能够预测其他智能体的动作,即 theory of mind 的推理能力,才能在多智能体环境中取得好的效果。

其次,在决策方面,因为多智能体环境中存在智能体之间的合作和竞争,同时各智能体的策略和行为也在不断变化,使得环境变得非平稳,从而要求智能体要在不确定性更强的环境中优化自己的长期目标,对其决策能力提出了更大的挑战。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

75岁吴经建被开除党籍:大搞权钱交易 对家属失管失教

新京报 浏览 261 09-02

北京五环外正在上演抢房大战 有房源直降95万元

第一财经资讯 浏览 9674 08-10

2025光伏半年会侧记:反内卷尚未成功,仍须加倍努力!

赶碳号 浏览 5080 07-26

男生眼中最好看的女生排行榜TOP1

Yuki女人故事 浏览 108 10-11

梁婷发文谈肖战成毅:努力劝和粉丝开战

奥字侃剧 浏览 165 09-26

蒋凡重启阿里:一场AI重构内核的千亿实验

博望财经 浏览 114 10-17

冒冷汗,它吓到我了...

越女事务所 浏览 3970 08-11

腾讯在上海成立启善投资公司 含投资管理业务

证券时报 浏览 232 08-19

郑星源亲自下场,否认霸凌梓渝,谁在说谎?

文娱没有圈 浏览 3990 07-26

《数据周报77》:收益超美股,银行股还值得投资吗?

智本社 浏览 2314 07-14

奶茶店18岁店员疑扫个人码收款被开除 老板公布监控

大风新闻 浏览 3216 07-15

男子强奸大嫂出狱再杀人案启动再审 高院披露详情

南国今报 浏览 93 10-29

华体科技携手华为,连签三地重卡超充项目

财闻 浏览 240 09-01

联合国安理会通过决议,将对海地制裁延期一年

界面新闻 浏览 96 10-18

搭载6缸发动机 宝马M3旅行版11月4日亮相

车质网 浏览 131 09-30

欧洲多国:美国赶紧“还钱”

第一财经资讯 浏览 40 11-10

美H-1B新规引发大混乱 有印度人花8000美元买机票返美

环球网资讯 浏览 157 09-23

飞重庆航班遭冰雹袭击前挡风玻璃破裂 乘客:捡一条命

大风新闻 浏览 8721 07-19

热搜爆了!董事长和明星女友,双双被拘!视频曝光→

商业观察杂志社 浏览 196 09-10

2025 年 9 月科技事件日历一览表

IT之家 浏览 222 09-01

记者:莱比锡尚未收到给西蒙斯的报价,切尔西与球员接近达成协议

直播吧 浏览 4378 07-24
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11