Multimodal large language models (MLLMs) demonstrate strong perception and reasoning performance on existing remote sensing (RS) benchmarks. However, most prior benchmarks rely on low-resolution imagery, and some high-resolution benchmarks suffer from flawed reasoning-task designs. We show that text-only LLMs can perform competitively with multimodal vision-language models on RS reasoning tasks without access to images, revealing a critical mismatch between current benchmarks and the intended evaluation of visual understanding. To enable faithful assessment, we introduce RSHR-Bench, a super-high-resolution benchmark for RS visual understanding and reasoning. RSHR-Bench contains 5,329 full-scene images with a long side of at least 4,000 pixels, with up to about 3 x 10^8 pixels per image, sourced from widely used RS corpora and UAV collections. We design four task families: multiple-choice VQA, open-ended VQA, image captioning, and single-image evaluation. These tasks cover nine perception categories and four reasoning types, supporting multi-turn and multi-image dialog. To reduce reliance on language priors, we apply adversarial filtering with strong LLMs followed by rigorous human verification. Overall, we construct 3,864 VQA tasks, 3,913 image captioning tasks, and 500 fully human-written or verified single-image evaluation VQA pairs. Evaluations across open-source, closed-source, and RS-specific VLMs reveal persistent performance gaps in super-high-resolution scenarios. Code: https://github.com/Yunkaidang/RSHR


翻译:多模态大语言模型(MLLMs)在现有遥感(RS)基准上展现出强大的感知与推理性能。然而,多数既有基准依赖于低分辨率影像,部分高分辨率基准则存在推理任务设计缺陷。我们发现,纯文本大语言模型在无需访问图像的情况下,于遥感推理任务上即可与多模态视觉语言模型竞争,这揭示了当前基准与预期视觉理解评估之间存在严重错配。为实现可靠评估,我们提出了RSHR-Bench——一个面向遥感视觉理解与推理的超高分辨率基准。RSHR-Bench包含5,329幅长边至少为4,000像素的全场景图像,单图最高约3×10^8像素,图像源自广泛使用的遥感语料库与无人机采集数据。我们设计了四类任务族:多项选择视觉问答、开放式视觉问答、图像描述生成以及单图评估。这些任务涵盖九个感知类别与四种推理类型,支持多轮对话与多图像对话。为降低对语言先验的依赖,我们采用强大大语言模型进行对抗性筛选,并辅以严格的人工验证。总体而言,我们构建了3,864项视觉问答任务、3,913项图像描述生成任务以及500对完全由人工撰写或验证的单图评估视觉问答对。通过对开源、闭源及遥感专用视觉语言模型的评估,揭示了在超高分辨率场景下持续存在的性能差距。代码:https://github.com/Yunkaidang/RSHR

0
下载
关闭预览

相关内容

语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员