模态论文 - 专知

会员服务 ·

MMEdge: Accelerating On-device Multimodal Inference via Pipelined Sensing and Encoding

Arxiv

0+阅读 · 10月31日

Modality Alignment across Trees on Heterogeneous Hyperbolic Manifolds

Arxiv

0+阅读 · 10月31日

Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model

Arxiv

0+阅读 · 10月31日

UNGER: Generative Recommendation with A Unified Code via Semantic and Collaborative Integration

Arxiv

0+阅读 · 10月31日

Normative Reasoning in Large Language Models: A Comparative Benchmark from Logical and Modal Perspectives

Arxiv

0+阅读 · 10月31日

Positive Hennessy-Milner Logic for Branching Bisimulation

Arxiv

0+阅读 · 10月27日

Contribution-Guided Asymmetric Learning for Robust Multimodal Fusion under Imbalance and Noise

Arxiv

0+阅读 · 10月30日

Security Risk of Misalignment between Text and Image in Multi-modal Model

Arxiv

0+阅读 · 10月30日

ALMGuard: Safety Shortcuts and Where to Find Them as Guardrails for Audio-Language Models

Arxiv

0+阅读 · 10月30日

Revisiting Generative Infrared and Visible Image Fusion Based on Human Cognitive Laws

Arxiv

0+阅读 · 10月30日

Normative Reasoning in Large Language Models: A Comparative Benchmark from Logical and Modal Perspectives

Arxiv

0+阅读 · 10月30日

Meshless projection model-order reduction via reference spaces for smoothed-particle hydrodynamics

Arxiv

0+阅读 · 10月30日

MMEdge: Accelerating On-device Multimodal Inference via Pipelined Sensing and Encoding

Arxiv

0+阅读 · 10月30日

Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization

Arxiv

0+阅读 · 10月29日

MCIHN: A Hybrid Network Model Based on Multi-path Cross-modal Interaction for Multimodal Emotion Recognition

Arxiv

0+阅读 · 10月28日

参考链接

微信扫码咨询专知VIP会员