Multimodal large language models (MLLMs) have achieved remarkable progress in visual understanding tasks such as visual grounding, segmentation, and captioning. However, their ability to perceive perceptual-level image features remains limited. In this work, we present UniPercept-Bench, a unified framework for perceptual-level image understanding across three key domains: Aesthetics, Quality, Structure and Texture. We establish a hierarchical definition system and construct large-scale datasets to evaluate perceptual-level image understanding. Based on this foundation, we develop a strong baseline UniPercept trained via Domain-Adaptive Pre-Training and Task-Aligned RL, enabling robust generalization across both Visual Rating (VR) and Visual Question Answering (VQA) tasks. UniPercept outperforms existing MLLMs on perceptual-level image understanding and can serve as a plug-and-play reward model for text-to-image generation. This work defines Perceptual-Level Image Understanding in the era of MLLMs and, through the introduction of a comprehensive benchmark together with a strong baseline, provides a solid foundation for advancing perceptual-level multimodal image understanding.


翻译:多模态大语言模型(MLLMs)在视觉定位、分割和描述等视觉理解任务上取得了显著进展。然而,其在感知级图像特征理解方面的能力仍然有限。本文提出了UniPercept-Bench,一个跨美学、质量、结构与纹理三个关键领域的统一感知级图像理解框架。我们建立了一个层次化定义系统,并构建了大规模数据集以评估感知级图像理解能力。在此基础上,我们通过领域自适应预训练和任务对齐强化学习训练了一个强大的基线模型UniPercept,使其能够在视觉评分(VR)和视觉问答(VQA)任务上实现鲁棒的泛化。UniPercept在感知级图像理解上超越了现有的MLLMs,并可作为文本到图像生成的即插即用奖励模型。本研究在多模态大语言模型时代定义了感知级图像理解,并通过引入一个全面的基准测试集和一个强大的基线模型,为推进感知级多模态图像理解奠定了坚实基础。

0
下载
关闭预览

相关内容

UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员