Multimodal Large Language Models struggle to maintain reliable performance under extreme real-world visual degradations, which impede their practical robustness. Existing robust MLLMs predominantly rely on implicit training/adaptation that focuses solely on visual encoder generalization, suffering from limited interpretability and isolated optimization. To overcome these limitations, we propose Robust-R1, a novel framework that explicitly models visual degradations through structured reasoning chains. Our approach integrates: (i) supervised fine-tuning for degradation-aware reasoning foundations, (ii) reward-driven alignment for accurately perceiving degradation parameters, and (iii) dynamic reasoning depth scaling adapted to degradation intensity. To facilitate this approach, we introduce a specialized 11K dataset featuring realistic degradations synthesized across four critical real-world visual processing stages, each annotated with structured chains connecting degradation parameters, perceptual influence, pristine semantic reasoning chain, and conclusion. Comprehensive evaluations demonstrate state-of-the-art robustness: Robust-R1 outperforms all general and robust baselines on the real-world degradation benchmark R-Bench, while maintaining superior anti-degradation performance under multi-intensity adversarial degradations on MMMB, MMStar, and RealWorldQA.


翻译:多模态大语言模型在极端现实世界视觉退化条件下难以保持可靠性能,这阻碍了其实际应用的鲁棒性。现有的鲁棒MLLM主要依赖于隐式训练/适应方法,仅关注视觉编码器的泛化能力,存在可解释性有限和优化孤立的问题。为克服这些局限性,我们提出了Robust-R1——一个通过结构化推理链显式建模视觉退化的新型框架。我们的方法整合了:(i) 用于建立退化感知推理基础的监督微调,(ii) 用于准确感知退化参数的奖励驱动对齐,以及(iii) 适应退化强度的动态推理深度缩放。为支撑该方法,我们构建了一个包含11K样本的专用数据集,其通过四个关键现实世界视觉处理阶段合成了真实退化,每个样本均标注了连接退化参数、感知影响、原始语义推理链与结论的结构化链条。综合评估证明了最先进的鲁棒性:Robust-R1在现实世界退化基准R-Bench上超越了所有通用及鲁棒基线模型,同时在MMMB、MMStar和RealWorldQA数据集的多强度对抗性退化条件下保持了卓越的抗退化性能。

0
下载
关闭预览

相关内容

【AAAI2024】KAM-CoT: 知识增强的多模态思维链推理
专知会员服务
45+阅读 · 2024年1月24日
MM-REACT:提示ChatGPT进行多模态推理和行动
专知会员服务
34+阅读 · 2023年3月26日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员