Recently, multimodal large language models (MLLMs) have been widely applied to reasoning tasks. However, they suffer from limited multi-rationale semantic modeling, insufficient logical robustness, and are susceptible to misleading interpretations in complex scenarios. Therefore, we propose a Multi-rationale INtegrated Discriminative (MIND) reasoning framework, which is designed to endow MLLMs with human-like cognitive abilities of "Understand -> Rethink -> Correct", and achieves a paradigm evolution from passive imitation-based reasoning to active discriminative reasoning. Specifically, we introduce a Rationale Augmentation and Discrimination (RAD) paradigm, which automatically and efficiently expands existing datasets by generating diverse rationales, providing a unified and extensible data foundation. Meanwhile, we design a Progressive Two-stage Correction Learning (P2CL) strategy. The first phase enhances multi-rationale positive learning, while the second phase enables active logic discrimination and correction. In addition, to mitigate representation entanglement in the multi-rationale semantic space, we propose a Multi-rationale Contrastive Alignment (MCA) optimization strategy, which achieves semantic aggregation of correct reasoning and boundary separation of incorrect reasoning. Extensive experiments demonstrate that the proposed MIND reasoning framework achieves state-of-the-art (SOTA) performance on multiple public datasets covering scientific, commonsense, and mathematical scenarios. It provides a new perspective for advancing MLLMs towards higher levels of cognitive intelligence. Our code is available at https://github.com/YuChuang1205/MIND


翻译:近年来,多模态大语言模型(MLLMs)已被广泛应用于推理任务。然而,它们在多推理语义建模方面存在局限,逻辑鲁棒性不足,且在复杂场景下易受误导性解释的影响。为此,我们提出了一种多推理集成判别式(MIND)推理框架,旨在赋予MLLMs类似人类的“理解->反思->纠正”认知能力,实现从被动模仿式推理到主动判别式推理的范式演进。具体而言,我们引入了推理增强与判别(RAD)范式,通过生成多样化的推理自动高效地扩展现有数据集,提供统一且可扩展的数据基础。同时,我们设计了一种渐进式两阶段纠正学习(P2CL)策略:第一阶段增强多推理正向学习,第二阶段实现主动逻辑判别与纠正。此外,为缓解多推理语义空间中的表示纠缠问题,我们提出了多推理对比对齐(MCA)优化策略,实现正确推理的语义聚合与错误推理的边界分离。大量实验表明,所提出的MIND推理框架在涵盖科学、常识和数学场景的多个公开数据集上取得了最先进的性能,为推进MLLMs向更高层次的认知智能发展提供了新视角。代码发布于https://github.com/YuChuang1205/MIND。

0
下载
关闭预览

相关内容

【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
专知会员服务
22+阅读 · 2021年10月8日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
专知会员服务
22+阅读 · 2021年10月8日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员