多模论文 - 专知

会员服务 ·

HFS: Holistic Query-Aware Frame Selection for Efficient Video Reasoning

Arxiv

0+阅读 · 12月12日

OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Languages and Modalities

Arxiv

0+阅读 · 12月9日

ReGATE: Learning Faster and Better with Fewer Tokens in MLLMs

Arxiv

0+阅读 · 11月28日

Parameter Efficient Multimodal Instruction Tuning for Romanian Vision Language Models

Arxiv

0+阅读 · 12月16日

AI-Powered Dermatological Diagnosis: From Interpretable Models to Clinical Implementation A Comprehensive Framework for Accessible and Trustworthy Skin Disease Detection

Arxiv

0+阅读 · 12月18日

GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding

Arxiv

0+阅读 · 11月10日

GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding

Arxiv

0+阅读 · 11月2日

Lost in Time? A Meta-Learning Framework for Time-Shift-Tolerant Physiological Signal Transformation

Arxiv

0+阅读 · 11月26日

MMDocIR: Benchmarking Multimodal Retrieval for Long Documents

Arxiv

0+阅读 · 11月7日

Explaining Similarity in Vision-Language Encoders with Weighted Banzhaf Interactions

Arxiv

0+阅读 · 11月18日

DyFuLM: An Advanced Multimodal Framework for Sentiment Analysis

Arxiv

0+阅读 · 12月1日

Navigating in the Dark: A Multimodal Framework and Dataset for Nighttime Traffic Sign Recognition

Arxiv

0+阅读 · 11月21日

Singing Timbre Popularity Assessment Based on Multimodal Large Foundation Model

Arxiv

0+阅读 · 12月7日

Auditing M-LLMs for Privacy Risks: A Synthetic Benchmark and Evaluation Framework

Arxiv

0+阅读 · 11月9日

Auditing M-LLMs for Privacy Risks: A Synthetic Benchmark and Evaluation Framework

Arxiv

0+阅读 · 11月5日

参考链接

微信扫码咨询专知VIP会员