While Vision-Language Models (VLMs) can solve complex tasks through agentic reasoning, their capabilities remain largely constrained to text-oriented chain-of-thought or isolated tool invocation. They fail to exhibit the human-like proficiency required to seamlessly interleave dynamic tool manipulation with continuous reasoning, particularly in knowledge-intensive and visually complex scenarios that demand coordinated external tools such as search and image cropping. In this work, we introduce SenseNova-MARS, a novel Multimodal Agentic Reasoning and Search framework that empowers VLMs with interleaved visual reasoning and tool-use capabilities via reinforcement learning (RL). Specifically, SenseNova-MARS dynamically integrates the image search, text search, and image crop tools to tackle fine-grained and knowledge-intensive visual understanding challenges. In the RL stage, we propose the Batch-Normalized Group Sequence Policy Optimization (BN-GSPO) algorithm to improve the training stability and advance the model's ability to invoke tools and reason effectively. To comprehensively evaluate the agentic VLMs on complex visual tasks, we introduce the HR-MMSearch benchmark, the first search-oriented benchmark composed of high-resolution images with knowledge-intensive and search-driven questions. Experiments demonstrate that SenseNova-MARS achieves state-of-the-art performance on open-source search and fine-grained image understanding benchmarks. Specifically, on search-oriented benchmarks, SenseNova-MARS-8B scores 67.84 on MMSearch and 41.64 on HR-MMSearch, surpassing proprietary models such as Gemini-3-Flash and GPT-5. SenseNova-MARS represents a promising step toward agentic VLMs by providing effective and robust tool-use capabilities. To facilitate further research in this field, we will release all code, models, and datasets.


翻译:尽管视觉-语言模型(VLMs)能够通过智能体推理解决复杂任务,但其能力在很大程度上仍局限于文本导向的思维链或孤立的工具调用。它们未能展现出类似人类的熟练度,以无缝地将动态工具操作与连续推理交织在一起,尤其是在需要协调外部工具(如搜索和图像裁剪)的知识密集型和视觉复杂场景中。在本工作中,我们提出了SenseNova-MARS,一种新颖的多模态智能体推理与搜索框架,它通过强化学习(RL)赋予VLMs交织的视觉推理与工具使用能力。具体而言,SenseNova-MARS动态整合了图像搜索、文本搜索和图像裁剪工具,以应对细粒度和知识密集型的视觉理解挑战。在强化学习阶段,我们提出了批量归一化组序列策略优化(BN-GSPO)算法,以提高训练稳定性,并增强模型调用工具和有效推理的能力。为了全面评估智能体VLMs在复杂视觉任务上的表现,我们引入了HR-MMSearch基准测试,这是首个由高分辨率图像组成的、包含知识密集型和搜索驱动问题的面向搜索的基准测试。实验表明,SenseNova-MARS在开源搜索和细粒度图像理解基准测试上取得了最先进的性能。具体来说,在面向搜索的基准测试中,SenseNova-MARS-8B在MMSearch上得分为67.84,在HR-MMSearch上得分为41.64,超越了Gemini-3-Flash和GPT-5等专有模型。SenseNova-MARS通过提供有效且鲁棒的工具使用能力,代表了迈向智能体VLMs的有希望的一步。为了促进该领域的进一步研究,我们将发布所有代码、模型和数据集。

0
下载
关闭预览

相关内容

互联网
【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应
专知会员服务
15+阅读 · 2025年8月5日
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员