关闭广告

清华汪玉团队提出VS-Bench测试基准,能评估VLM多项能力

DeepTech深科技2025-07-31 12:00:01674人阅读

随着大模型的发展,大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务,在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而,现有的测试基准主要集中在单智能体或纯文本环境,缺少多智能体、多模态的大模型智能体测试基准,因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench(Visual Strategic Bench), 以用于评估视觉语言模型(VLM,Vision-Language Model)在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型?因为现实世界就是一个多智能体的环境,这样的环境给大模型的能力提出了新的挑战。

首先,在推理方面,因为多智能体环境的结果依赖于所有智能体的联合动作,所以智能体不仅需要自己能选择合理的动作,还要能够预测其他智能体的动作,即 theory of mind 的推理能力,才能在多智能体环境中取得好的效果。

其次,在决策方面,因为多智能体环境中存在智能体之间的合作和竞争,同时各智能体的策略和行为也在不断变化,使得环境变得非平稳,从而要求智能体要在不确定性更强的环境中优化自己的长期目标,对其决策能力提出了更大的挑战。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

全世界公认的六大帅哥,一个比一个惊艳,有人被誉为:国宝级美男

温柔娱公子 浏览 2957 07-13

NBA版落叶归根!利拉德保罗重回巅峰故地 卡佩拉梦回航天城

直播吧 浏览 1313 07-22

俄侦查委员会:坠毁的安-24客机上所有人员全部遇难

环球网资讯 浏览 3040 07-25

2025款红旗H6正式上市 售价17.98-23.98万元

车质网 浏览 5778 06-28

预计对位18岁王钰栋!38岁长友佑都时隔2年7个月再次代表日本首发

直播吧 浏览 5851 07-13

硅谷聚会|与Genspark、Lovart、Simular 和SambaNova一起,聊聊AI Agent正在如何改变世界

硅星人 浏览 5405 07-14

英国计划推出新举措,多方面发力促进电动汽车销售

IT之家 浏览 1785 07-14

"泰制"无人机轰炸柬军火库画面公开 柬埔寨首相发声

红星新闻 浏览 1309 07-27

50、60岁的女人,夏天千万别碰“超短裤”,这样穿更优雅时髦

静儿时尚达人 浏览 9520 07-05

日本北海道近海地区发生6.1级地震 震源深度20公里

财联社 浏览 7506 06-01

三星确认 Galaxy AI 功能将继续免费,打破收费谣言

IT之家 浏览 569 07-15

“中国三轮车大王”碰瓷问界、智界,暴露行业一个问题

正解局 浏览 6754 07-13

夏季天热骑电动车不戴头盔?南京交警:严查纠违

现代快报 浏览 1082 07-12

经常便血,是痔疮还是直肠癌?

网易健康 浏览 7785 02-26

6名大学生参观时溺亡 中金黄金跌超7%

每日经济新闻 浏览 6476 07-24

上半年销量大降24.2%!本田:说好的“一日本田终身本田”呢?

玩车情报 浏览 9918 07-11

王兴兴:机器人的发展需要中美等全球力量共同推动

贝壳财经 浏览 3446 07-16

三次判刑仍获提拔局长获刑后 山西多名官员被查

现代快报 浏览 6014 07-14

超40家信用卡分中心年内消失,信用卡业务格局重塑?

国际金融报 浏览 4846 07-25

印度航空发表坠机声明 坠毁航班号为AI171

北京日报 浏览 3869 06-13

黄仁勋警示AI风险:没新想法,就集体失业

网易科技报道 浏览 1531 07-12
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11