Despite Contrastive Language-Image Pretraining (CLIP)'s remarkable capability to retrieve content across modalities, a substantial modality gap persists in its feature space. Intriguingly, we discover that off-the-shelf MLLMs (Multimodal Large Language Models) demonstrate powerful inherent modality alignment properties. While recent MLLM-based retrievers with unified architectures partially mitigate this gap, their reliance on coarse modality alignment mechanisms fundamentally limits their potential. In this work, We introduce MAPLE (Modality-Aligned Preference Learning for Embeddings), a novel framework that leverages the fine grained alignment priors inherent in MLLM to guide cross modal representation learning. MAPLE formulates the learning process as reinforcement learning with two key components: (1) Automatic preference data construction using off-the-shelf MLLM, and (2) a new Relative Preference Alignment (RPA) loss, which adapts Direct Preference Optimization (DPO) to the embedding learning setting. Experimental results show that our preference-guided alignment achieves substantial gains in fine-grained cross-modal retrieval, underscoring its effectiveness in handling nuanced semantic distinctions.


翻译:尽管对比语言-图像预训练(CLIP)在跨模态内容检索方面展现出卓越能力,但其特征空间中仍存在显著的模态鸿沟。有趣的是,我们发现现成的多模态大语言模型(MLLMs)展现出强大的内在模态对齐特性。虽然近期基于MLLM的统一架构检索器部分缓解了这一鸿沟,但其对粗粒度模态对齐机制的依赖从根本上限制了发展潜力。本研究提出MAPLE(面向嵌入学习的模态对齐偏好学习框架),这是一个利用MLLM内在细粒度对齐先验来指导跨模态表示学习的新型框架。MAPLE将学习过程构建为包含两个关键组件的强化学习:(1)使用现成MLLM自动构建偏好数据;(2)适用于嵌入学习场景的新型相对偏好对齐损失函数,该函数将直接偏好优化方法适配至嵌入学习场景。实验结果表明,我们提出的偏好引导对齐方法在细粒度跨模态检索任务中取得显著性能提升,印证了其在处理细微语义差异方面的有效性。

0
下载
关闭预览

相关内容

【KDD2024】面向鲁棒推荐的决策边界感知图对比学习
专知会员服务
21+阅读 · 2024年8月8日
专知会员服务
41+阅读 · 2021年6月19日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员