跨模态论文 - 专知

会员服务 ·

跨模态

InEx: Hallucination Mitigation via Introspection and Cross-Modal Multi-Agent Collaboration

Arxiv

0+阅读 · 12月2日

VibraVerse: A Large-Scale Geometry-Acoustics Alignment Dataset for Physically-Consistent Multimodal Learning

Arxiv

0+阅读 · 11月25日

Uncertainty-Resilient Multimodal Learning via Consistency-Guided Cross-Modal Transfer

Arxiv

0+阅读 · 11月18日

CoCoVa: Chain of Continuous Vision-Language Thought for Latent Space Reasoning

Arxiv

0+阅读 · 11月4日

XM-ALIGN: Unified Cross-Modal Embedding Alignment for Face-Voice Association

Arxiv

0+阅读 · 12月7日

Audio-Visual Cross-Modal Compression for Generative Face Video Coding

Arxiv

0+阅读 · 12月17日

Semi-distributed Cross-modal Air-Ground Relative Localization

Arxiv

0+阅读 · 11月10日

New York Smells: A Large Multimodal Dataset for Olfaction

Arxiv

0+阅读 · 11月25日

Medusa: Cross-Modal Transferable Adversarial Attacks on Multimodal Medical Retrieval-Augmented Generation

Arxiv

0+阅读 · 11月24日

Bridging Hidden States in Vision-Language Models

Arxiv

0+阅读 · 11月14日

Same Content, Different Answers: Cross-Modal Inconsistency in MLLMs

Arxiv

0+阅读 · 12月9日

Toward Robust and Harmonious Adaptation for Cross-modal Retrieval

Arxiv

0+阅读 · 11月18日

FlowMM: Cross-Modal Information Flow Guided KV Cache Merging for Efficient Multimodal Context Inference

Arxiv

0+阅读 · 11月13日

LLM-Driven Completeness and Consistency Evaluation for Cultural Heritage Data Augmentation in Cross-Modal Retrieval

Arxiv

0+阅读 · 11月9日

APT-CGLP: Advanced Persistent Threat Hunting via Contrastive Graph-Language Pre-Training

Arxiv

0+阅读 · 11月25日

参考链接

微信扫码咨询专知VIP会员