关闭广告

清华汪玉团队提出VS-Bench测试基准,能评估VLM多项能力

DeepTech深科技2025-07-31 12:00:018607人阅读

随着大模型的发展,大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务,在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而,现有的测试基准主要集中在单智能体或纯文本环境,缺少多智能体、多模态的大模型智能体测试基准,因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench(Visual Strategic Bench), 以用于评估视觉语言模型(VLM,Vision-Language Model)在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型?因为现实世界就是一个多智能体的环境,这样的环境给大模型的能力提出了新的挑战。

首先,在推理方面,因为多智能体环境的结果依赖于所有智能体的联合动作,所以智能体不仅需要自己能选择合理的动作,还要能够预测其他智能体的动作,即 theory of mind 的推理能力,才能在多智能体环境中取得好的效果。

其次,在决策方面,因为多智能体环境中存在智能体之间的合作和竞争,同时各智能体的策略和行为也在不断变化,使得环境变得非平稳,从而要求智能体要在不确定性更强的环境中优化自己的长期目标,对其决策能力提出了更大的挑战。


(来源:https://arxiv.org/pdf/2506.02387)

基于此,在本次研究之中,研究团队提出了新的测试基准 VS-Bench,以用于评估视觉语言模型在多智能体任务中的推理和决策能力,包含了合作、对抗、混合三种类型的 8 个多智能体环境。研究团队提出了 2 种互补的评估方式,一种是离线的策略推理(strategic reasoning)能力,通过智能体对其他智能体下一步动作的预测准确率来评估;另一种是在线的决策能力(decision-making),通过智能体获得的长期回报来评估。研究团队对包含推理模型、对话模型、开源模型三种共 14 个先进的视觉语言模型进行了测试,有以下主要发现:


图 | 徐泽来(来源:徐泽来)

主要发现之一是:现有大模型具有初步的策略推理能力,但距离准确预测其他智能体的动作还有较大差距。所有 14 个大模型都超过了随机智能体(随机推理),但结果最好的大模型 o4-mini 也只有 47.8% 的综合准确率。整体而言,推理模型最强,而对话模型和开源模型性能接近。


(来源:https://arxiv.org/pdf/2506.02387)

主要发现之二是:现有大模型在多智能体任务中的决策能力很弱。14 个大模型中的 10 个都只得到了和随机智能体相近的综合分数,只有 3 个推理模型明显优于随机智能体,但是性能最好的大模型 o4-mini 也只有 24.3% 的综合得分。


(来源:https://arxiv.org/pdf/2506.02387)

徐泽来指出,在绝大多数任务和环境中,推理模型都显著优于对话模型和开源模型,但是在某些多智能体社会困境的任务中,开源模型性能有显著的提升,甚至超过了部分推理模型。他们通过分析发现,这是因为开源模型虽然单个模型能力较差,但更倾向于合作共赢的行为,从而在这些任务中得到甚至超越推理模型的结果。

具体而言,本次研究的环境中有一个类似囚徒困境的环境,如果各个智能体合作则都能双赢,但智能体可能会为了更大的个人利益而选择背叛,而如果所有智能体都背叛则会陷入双输。研究团队发现推理模型通常更加“理性”,更有可能为了个人利益而选择背叛;而开源模型更倾向于合作,从而让各个智能体都能得到较高的收益。


图 | 本次论文的共同作者徐哲轩(来源:徐哲轩)


图 | 本次论文的共同作者易翔敏(来源:易翔敏)

未来,他们希望该工作能够成为大模型在多智能体任务中的一个测试基准,推动领域内多智能体算法和应用的进步,从而使大模型智能体能被更好地应用在游戏 AI、人机协作等多智能体场景中。

下一步,研究团队计划从几个方向来进一步扩展本次工作:

首先,要进行人类实验。让人类和大模型完成同样的任务,得到平均人类的分数,从而更好地评估大模型现在的能力。

其次,要拓展环境和模型。为此,研究团队计划加入更多不同类型和难度的多智能体环境,并测试更多更新的大模型。

参考资料:

https://arxiv.org/pdf/2506.02387

运营/排版:何晨龙

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

商汤绝影,如何打造智能辅助驾驶的“通用大脑”?

网易汽车 浏览 7952 05-01

申台龙:申花派出主力,而我们用的是轮换阵容

懂球帝 浏览 1 10-02

外媒披露美俄元首会晤内幕:普京为结束冲突开条件

参考消息 浏览 4182 08-17

美军空袭也门首都萨那 已致1死13伤

环球网资讯 浏览 8284 03-24

五月天演唱会F4再合体,朱孝天的待遇打脸多少人

大龄女一晓彤 浏览 9111 07-30

380亿身家女富豪曾芳勤,持续加码汽车产业链

侃见财经 浏览 4025 07-23

领先英伟达AMD一代!华为将首次线下展出昇腾384颗自研芯片AI方案 算力无敌

快科技 浏览 7622 07-19

张昊玥手撕虞书欣?

顾史 浏览 1 08-22

中超第17轮观众人数:京沪德比62291人居首,英博61588人排第2

懂球帝 浏览 4083 07-20

微软 Copilot 测试“智能”模式,基于任务动态调整 AI 思考时间

IT之家 浏览 493 07-31

杨瀚森&张子宇来自山东!付政浩:内线人才是山东篮球强省的底蕴

直播吧 浏览 4419 07-19

张予曦毕雯珺好敬业,剧播完那么久了 还一直营业

东方不败然多多 浏览 1 09-01

小米开源语音大模型Xiaomi-MiMo-Audio,对话自然度达拟人水准

IT之家 浏览 1 09-19

特朗普对援乌态度"巨大转变" 或动用"总统特别拨款权"

澎湃新闻 浏览 6526 07-12

2025全球大模型应用报告:红海混战「忠诚度」瓦解,用户脚踏4.7条船!

新智元 浏览 3587 08-12

动力或升级 新款Jeep大切诺基预告图发布

车质网 浏览 8971 05-09

带头辱骂韦世豪及家人!津门虎球迷遭处罚:已被行拘7日+禁止观赛

我爱英超 浏览 5708 07-21

陶冬:美国降息大门只开了一半 美联储政策独立性不再

首席经济学家论坛 浏览 1 09-22

英特尔二季度AI营收大超预期,盘后走势震荡,跌近4%| 财报见闻

华尔街见闻官方 浏览 260 07-25

美总统特朗普称派遣代表前往俄罗斯 希望达成停火协议

央视新闻客户端 浏览 7683 03-14

中兴通讯一次开源11个核心成果,平治信息实力赋能AI“国家队”

览富财经网 浏览 3303 07-31
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备2023013132号-2