多媒体论文 - 专知

会员服务 ·

多媒体

Multi-hop Parallel Image Semantic Communication for Distortion Accumulation Mitigation

Arxiv

0+阅读 · 10月30日

GACA-DiT: Diffusion-based Dance-to-Music Generation with Genre-Adaptive Rhythm and Context-Aware Alignment

Arxiv

0+阅读 · 10月28日

HiGS: Hierarchical Generative Scene Framework for Multi-Step Associative Semantic Spatial Composition

Arxiv

0+阅读 · 10月31日

Referee: Reference-aware Audiovisual Deepfake Detection

Referee: Reference-aware Audiovisual Deepfake Detection

Arxiv

0+阅读 · 10月31日

Audio-Visual Speech Enhancement In Complex Scenarios With Separation And Dereverberation Joint Modeling

Arxiv

0+阅读 · 10月29日

Mano Technical Report

Arxiv

0+阅读 · 10月31日

Contribution-Guided Asymmetric Learning for Robust Multimodal Fusion under Imbalance and Noise

Arxiv

0+阅读 · 10月30日

MORE: Multi-Organ Medical Image REconstruction Dataset

MORE: Multi-Organ Medical Image REconstruction Dataset

Arxiv

0+阅读 · 10月30日

ReCon-GS: Continuum-Preserved Gaussian Streaming for Fast and Compact Reconstruction of Dynamic Scenes

Arxiv

0+阅读 · 10月30日

Dependency Structure Augmented Contextual Scoping Framework for Multimodal Aspect-Based Sentiment Analysis

Dependency Structure Augmented Contextual Scoping Framework for Multimodal Aspect-Based Sentiment Analysis

Arxiv

0+阅读 · 10月30日

AdSum: Two-stream Audio-visual Summarization for Automated Video Advertisement Clipping

AdSum: Two-stream Audio-visual Summarization for Automated Video Advertisement Clipping

Arxiv

0+阅读 · 10月30日

TRUST-VL: An Explainable News Assistant for General Multimodal Misinformation Detection

Arxiv

0+阅读 · 10月30日

ARECHO: Autoregressive Evaluation via Chain-Based Hypothesis Optimization for Speech Multi-Metric Estimation

ARECHO: Autoregressive Evaluation via Chain-Based Hypothesis Optimization for Speech Multi-Metric Estimation

Arxiv

0+阅读 · 10月30日

Unveiling Intrinsic Text Bias in Multimodal Large Language Models through Attention Key-Space Analysis

Unveiling Intrinsic Text Bias in Multimodal Large Language Models through Attention Key-Space Analysis

Arxiv

0+阅读 · 10月30日

Quality Over Quantity? LLM-Based Curation for a Data-Efficient Audio-Video Foundation Model

Quality Over Quantity? LLM-Based Curation for a Data-Efficient Audio-Video Foundation Model

Arxiv

0+阅读 · 10月30日

参考链接

子主题

IEEE Transactions on Circuits and Systems for Video Technology

ACM Transactions on Multimedia Computing, Communications and Application

微信扫码咨询专知VIP会员