在这里插入图片描述

MCTBench: Multimodal Cognition towards Text-Rich Visual Scenes Benchmark

➡️ 论文标题:MCTBench: Multimodal Cognition towards Text-Rich Visual Scenes Benchmark
➡️ 论文作者:Bin Shan, Xiang Fei, Wei Shi, An-Lan Wang, Guozhi Tang, Lei Liao, Jingqun Tang, Xiang Bai, Can Huang
➡️ 研究机构: ByteDance、华中科技大学
➡️ 问题背景:多模态大语言模型(MLLMs)在多种跨模态任务中表现出色,具有广泛的实际应用潜力。然而,现有的基准测试主要关注感知能力,而忽视了认知能力的评估,尤其是在文本丰富的视觉场景中。为了弥补这一不足,研究团队提出了MCTBench,旨在评估MLLMs在文本丰富的视觉场景中的认知能力。
➡️ 研究动机:尽管现有的多模态大语言模型在感知任务中表现出色,但它们在认知任务中的表现仍有待提高。为了全面评估这些模型的认知能力,研究团队设计了MCTBench,通过视觉推理和内容生成任务来评估模型的综合能力。此外,MCTBench还集成了多种感知任务,以确保评估的公平性和一致性。
➡️ 方法简介:MCTBench包含大约5.2k张文本丰富的图像和8.5k个严格注释的问题-答案对,分为感知、推理和内容生成三个任务。感知和推理任务采用多项选择题格式,内容生成任务则采用开放性问题格式。为了提高内容生成任务的评估效率和公平性,研究团队开发了一套自动评估管道,利用先进的MLLMs(如GPT-4V)作为评估者,与提供的参考答案进行比较。
➡️ 实验设计:实验在多个公开数据集上进行,包括感知任务和内容生成任务。实验设计了不同类型的图像和问题,以全面评估模型在不同条件下的表现。实验结果表明,尽管MLLMs在感知任务中表现出色,但在认知任务(尤其是推理和内容生成)中仍有提升空间。此外,模型的参数规模越大,其在认知任务中的表现通常越好。

VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI

➡️ 论文标题:VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI
➡️ 论文作者:Sijie Cheng, Kechen Fang, Yangyang Yu, Sicheng Zhou, Bohao Li, Ye Tian, Tingguang Li, Lei Han, Yang Liu
➡️ 研究机构: Tsinghua University、Institute for AI Industry Research (AIR)、University of Toronto、The Chinese University of Hong Kong、Zhili College、Tencent Robotics X
➡️ 问题背景:多模态大语言模型(MLLMs)在传统视觉-语言任务中取得了显著进展,对具身人工智能(Embodied AI)领域产生了深远影响。然而,这些模型主要基于对象中心和外部视角的数据训练,缺乏对“自我”与环境关系的深入理解。为了更好地应用于具身AI,需要从第一人称视角理解和交互环境,这促使了对以自我为中心的视频(egocentric videos)的研究。
➡️ 研究动机:现有的以自我为中心的视频基准测试主要集中在传统的视频问答任务上,忽视了支持具身AI下游应用(如玻璃设备或自主机器人)的潜力。因此,研究团队设计了VidEgoThink,一个全面的以自我为中心的视频理解基准,旨在评估MLLMs在具身AI中的应用能力,特别是视频问答、层次规划、视觉定位和奖励建模四个关键任务。
➡️ 方法简介:研究团队设计了一系列自动构建管道,利用Ego4D数据集的现有注释,结合GPT-4o的强大推理能力,生成适合具身AI应用的任务实例。这些任务包括视频问答、层次规划、视觉定位和奖励建模,旨在全面评估MLLMs在具身AI中的表现。
➡️ 实验设计:研究团队在三个类别共14种MLLMs上进行了广泛的实验,包括API-based MLLMs、开源图像基础MLLMs和开源视频基础MLLMs。实验结果表明,所有MLLMs在所有任务上的表现均不佳,尤其是在视频问答任务中,GPT-4o在32帧和8帧的准确率分别为31.17%和32.83%。这表明,尽管MLLMs在具身AI中具有巨大潜力,但直接应用于第一人称场景仍面临挑战,需要进一步的研究和改进。

MMFuser: Multimodal Multi-Layer Feature Fuser for Fine-Grained Vision-Language Understanding

➡️ 论文标题:MMFuser: Multimodal Multi-Layer Feature Fuser for Fine-Grained Vision-Language Understanding
➡️ 论文作者:Yue Cao, Yangzhou Liu, Zhe Chen, Guangchen Shi, Wenhai Wang, Danhuai Zhao, Tong Lu
➡️ 研究机构: 南京大学、香港中文大学、中国移动紫金创新研究院
➡️ 问题背景:尽管多模态大语言模型(MLLMs)在理解复杂的人类意图方面取得了显著进展,但捕捉图像中的细微细节仍然是一个挑战。当前的方法主要依赖于视觉编码器的最深层特征图,忽略了浅层特征图中的丰富细粒度信息。这导致了诸如OCR错误和对象幻觉等问题。
➡️ 研究动机:现有的研究和方法在多模态大语言模型中未能充分利用单个视觉编码器的潜力。浅层特征虽然包含丰富的细节信息,但与文本特征空间的语义对齐不足。为了解决这一问题,研究团队提出了一种多层特征融合模块(MMFuser),旨在动态地从浅层特征中提取缺失的细节,同时保持深层特征的语义对齐。
➡️ 方法简介:研究团队提出了一种多层特征融合模块(MMFuser),该模块通过利用深层特征作为查询,动态地从浅层特征中提取缺失的细节。具体来说,MMFuser从ViT中提取多层特征图,使用深层特征图作为查询,通过交叉注意力机制从浅层特征图中提取细粒度信息。然后,通过自注意力机制进一步增强特征交互,并通过可学习的向量调整特征的融合。最终,生成的增强视觉特征图被传递给大语言模型。
➡️ 实验设计:研究团队将MMFuser应用于LLaVA-1.5模型,并在多个公开数据集上进行了实验,包括VQA-v2、GQA、VizWiz、SQA-IMG、TextVQA、POPE、MMB、MMB-CN、SEED、LLaVA-Wild和MMVet。实验结果表明,MMFuser显著提高了LLaVA-1.5模型在多个基准测试上的性能,特别是在细粒度识别任务(如OCR和视觉定位)上表现尤为突出。

TinyClick: Single-Turn Agent for Empowering GUI Automation

➡️ 论文标题:TinyClick: Single-Turn Agent for Empowering GUI Automation
➡️ 论文作者:Pawel Pawlowski, Krystian Zawistowski, Wojciech Lapacz, Marcin Skorupa, Adam Wiacek, Sebastien Postansque, Jakub Hoscilowicz
➡️ 研究机构: Samsung R&D Poland、Warsaw University of Technology
➡️ 问题背景:当前的图形用户界面(GUI)自动化任务中,单轮代理(Single-turn Agent)在执行用户指定的UI环境中的动作时,如点击图标或在文本框中输入文字,表现出了中等的准确性。然而,标准的多模态语言模型(MLLMs)在单轮代理任务中的表现较差,准确率仅为0-11%,尽管计算成本较高。
➡️ 研究动机:为了提高单轮代理在GUI自动化任务中的性能,研究团队基于Florence-2-Base模型开发了一个名为TinyClick的单轮代理。TinyClick通过多任务训练和基于多模态大型语言模型(MLLM)的数据增强,显著提高了模型的性能,尤其是在屏幕点击位置预测任务上,其准确率远超现有的GUI特定模型和MLLMs。
➡️ 方法简介:研究团队使用了Florence-2-Base模型,该模型是一个0.27B参数的视觉变换器,具有语言建模头,能够处理不同的视觉任务。通过多任务训练,包括元素描述生成、元素定位、对象检测、代理动作和基于屏幕内容的问题回答等任务,TinyClick在处理GUI自动化任务时表现出色。此外,研究团队还使用了公开的数据集和MLLM生成的数据增强来准备训练数据。
➡️ 实验设计:实验在两个标准基准数据集Screenspot和OmniAct上进行,分别包含1200个和3000个测试案例。实验设计了多种训练数据集的组合,包括WaveUI、AMEX、Mind2Web、GUI Odyssey、GUI Course、AndroidControl和ScreenQA等。实验结果表明,TinyClick在Screenspot上达到了73.8%的准确率,在OmniAct上达到了58.3%的准确率,显著优于其他已知方法。

ClickAgent: Enhancing UI Location Capabilities of Autonomous Agents

➡️ 论文标题:ClickAgent: Enhancing UI Location Capabilities of Autonomous Agents
➡️ 论文作者:Jakub Hoscilowicz, Bartosz Maj, Bartosz Kozakiewicz, Oleksii Tymoshchuk, Artur Janicki
➡️ 研究机构: Samsung R&D Poland、Warsaw University of Technology
➡️ 问题背景:随着数字设备(如计算机和智能手机)的普及,自动化工具的需求日益增长。尽管多模态大型语言模型(MLLMs)如GPT-4V在许多领域表现出色,但在图形用户界面(GUI)交互方面存在局限性,这限制了它们在自动化日常任务中的有效性。当前的MLLMs在屏幕理解、推理和行动规划方面表现出合理的能力,但在准确识别特定UI元素方面存在困难。
➡️ 研究动机:为了克服现有MLLMs在GUI交互中的局限性,研究团队开发了ClickAgent,这是一种结合了MLLM驱动的推理和专门的UI定位模型的混合自主代理。ClickAgent旨在通过提高UI元素的识别准确性,增强自主代理在GUI交互中的性能。
➡️ 方法简介:ClickAgent由三个主要组件组成:决策模块、UI定位模块和反思模块。决策模块负责分析当前屏幕截图、审查行动历史并确定下一步行动;UI定位模块负责识别目标UI元素的坐标;反思模块则评估任务是否成功完成。通过这种方式,ClickAgent能够更准确地识别和操作UI元素,从而提高任务成功率。
➡️ 实验设计:研究团队在Android智能手机模拟器和实际Android智能手机上进行了实验,使用任务成功率作为主要性能指标。实验包括了154个独特的网络购物任务和432个通用任务,涵盖了与日常智能手机应用程序和电子商务平台相关的任务。实验结果表明,ClickAgent在任务成功率方面显著优于其他基于提示的自主代理(如CogAgent、AppAgent)。

更多推荐