首个GUI多模态大模型智能体可信评测框架+基准:MLA-Trust
MLA-Trust 是首个针对图形用户界面(GUI)环境下多模态大模型智能体(MLAs)的可信度评测框架。该研究构建了涵盖真实性、可控性、安全性与隐私性四个核心维度的评估体系,精心设计了 34 项高风险交互任务,横跨网页端与移动端双重测试平台,对 13 个当前最先进的商用及开源多模态大语言模型智能体进行深度评估,系统性揭示了 MLAs 从静态推理向动态交互转换过程中所产生的可信度风险。
此外,MLA-Trust 提供了高度模块化且可扩展的评估工具箱,旨在为多样化交互环境中 MLAs 的持续性可信度评估提供技术支撑。该框架为深入分析与有效提升 MLAs 可信度奠定了坚实的实践基础,有力推动了其在现实世界应用场景中的可靠部署。
论文:https://arxiv.org/pdf/2506.01616
项目主页:https://mla-trust.github.io
代码仓库:https://github.com/thu-ml/MLA-Trust
核心贡献与发现
多模态大模型智能体的兴起标志着人机交互范式的深刻变革。与传统 MLLMs 的被动文本生成不同,MLAs 将视觉、语言、动作和动态环境融合于统一智能框架,能够在复杂 GUI 环境中自主执行多步骤任务,应用场景涵盖办公自动化、电子邮件管理、电子商务交易等。然而,这种强化的环境交互能力也引发了前所未有的行为安全风险挑战。MLAs 引入了超越传统语言模型局限性的重大可信度挑战,主要体现在其能够直接修改数字系统状态并触发不可逆的现实世界后果。现有评估基准尚未充分应对由 MLAs 的可操作输出、长期不确定性累积和多模态攻击模式所带来的独特挑战。
研究发现 MLAs 面临关键可信挑战:
GUI 环境交互引发严重现实风险:无论是闭源还是开源多模态大模型智能体系统,其可信风险都比多模态大语言模型更为严重。这种差异源于智能体系统与外部环境的交互以及实际的行为执行,使其超越了传统 LLMs 被动文本生成的局限,引入了切实的风险和潜在危害,尤其是在高风险场景(如金融交易)中。
多步骤动态交互放大可信脆弱性:将 MLLMs 转变为基于 GUI 的智能体会极大地降低其可信度。在多步骤执行过程中,即使没有明确的越狱提示,这些智能体也能够执行 MLLMs 通常会拒绝的指令。这揭示了实际环境交互引入了潜在风险,对决策过程的持续监测显得尤为重要。
迭代自主性催生不可预测的衍生风险:多步骤执行在增强机器学习模型适应性适应性的同时,容易在决策周期中引入并累积潜在的非线性风险。持续的交互触发了机器学习模型的自我进化,从而产生了无法预测的衍生风险,这些风险能够绕过静态防御措施。这一结论表示仅仅实现环境一致性对于可信实现存在明显不足,未来需要动态监测来避免不可预测的风险连锁反应。
模型规模与训练策略的可信相关性:采用结构化微调策略(如 SFT 和 RLHF)的开源模型表现出更好的可控性和安全性。较大的模型通常在多个子方面表现出更高的可信度,这表明适当的模型参数量增加能够实现更好的安全一致性。详细结果和分析参见论文【评测框架】。
为确保多模态大模型智能体在实际应用过程中的安全性与可靠性,本研究倡导 “可信自治” 的核心指导原则:智能体不仅需忠实地执行用户任务,还必须在其自主运行过程中最大限度地降低对用户、环境及第三方的风险。这一原则体现了双重要求:一方面是智能体在完成既定任务时的有效性,另一方面是其与更广泛环境交互中的可信度。与传统监督学习设置不同,后者的评估通常局限于任务准确性或静态鲁棒性,而 MLA 的可信度评估需要通过其在持续性、动态性交互周期中的综合行为表现来全面衡量,包括正确性、可控性与安全性等多个关键维度。
MLA-Trust 基于四个核心维度构建评估体系:真实性评估 MLA 输出的准确性和事实性正确性,使行为能够始终与内部推理过程和预期的设计目标保持一致;可控性反映执行用户指定任务的一致性,通过多步骤交互保持可预测的行为,并防止由连续决策产生的衍生风险;安全性测试在各种不利因素的干扰下具备抵御操纵或滥用的能力,从而评估系统的稳定性和可靠性;隐私性测试模型遵循道德规范和社会期望的能力,通过安全地管理敏感信息、尊重用户隐私以及透明且负责任的数据处理方式来建立用户信任。框架创新性引入预定义流程与上下文推理双重评价视角,系统性覆盖智能体自主性提升带来的新挑战。
图 1 MLA-Trust 框架。
四个维度共同构成了评估基于 GUI 的机器学习智能体(MLA)可信度的最基本而全面的框架。每个维度都针对一种特定的失效模式,并且相互补充:智能体可能在执行过程中保持准确性,但缺乏可控性,或在可控的情况下缺乏安全性。重要的是,每个维度都可以通过自动化工具进行具体测量,从而实现对实际智能体的可扩展、可重复评估。
表 1 MLA-Trust 任务设计。
实验结果
基于 13 个 SOTA 多模态模型智能体的大规模实验表明,即使是经过多重安全加固的商用模型智能体,在复杂 GUI 交互场景中仍存在显著安全隐患。如图 2 所示,智能体可以在社交网站上发布含有不文明词汇的有害内容,且未进行任何确认或拒绝的行为,这直接导致了潜在的社交风险和言论环境的污染。如图 3 所示,智能体在购物网站上购买了具有显著危险性的枪支,这一行为毫无疑问地对用户及公众安全构成了直接威胁。