Video-to-Audio generation has made remarkable strides in automatically synthesizing sound for video. However, existing evaluation metrics, which focus on semantic and temporal alignment, overlook a critical failure mode: models often generate acoustic events, particularly speech and music, that have no corresponding visual source. We term this phenomenon Insertion Hallucination and identify it as a systemic risk driven by dataset biases, such as the prevalence of off-screen sounds, that remains completely undetected by current metrics. To address this challenge, we first develop a systematic evaluation framework that employs a majority-voting ensemble of multiple audio event detectors. We also introduce two novel metrics to quantify the prevalence and severity of this issue: IH@vid (the fraction of videos with hallucinations) and IH@dur (the fraction of hallucinated duration). Building on this, we introduce HALCON to mitigate IH. HALCON follows a three-stage procedure: it first generates initial audio to expose hallucinated segments, then identifies and masks the corresponding unreliable video features, and finally regenerates the audio using the corrected conditioning. Experiments on several mainstream V2A benchmarks first reveal that state-of-the-art models suffer from severe IH. In contrast, our HALCON method reduces both the prevalence and duration of hallucinations by over 50\% on average, without degrading, and in some cases even improving, conventional metrics for audio quality and temporal synchronization. Our work is the first to formally define, systematically measure, and effectively mitigate Insertion Hallucination, paving the way for more reliable and faithful V2A models.


翻译:视频到音频生成在自动为视频合成声音方面取得了显著进展。然而,现有评估指标主要关注语义和时间对齐,却忽视了一个关键失效模式:模型常常生成没有对应视觉源的声学事件,尤其是语音和音乐。我们将此现象称为"插入幻觉",并指出这是一种由数据集偏差(如画外音的普遍存在)驱动的系统性风险,而当前指标完全无法检测到该问题。为应对这一挑战,我们首先开发了一个系统化的评估框架,该框架采用多个音频事件检测器的多数投票集成。我们还引入了两个新颖的指标来量化该问题的普遍性和严重程度:IH@vid(出现幻觉的视频比例)和IH@dur(幻觉时长的比例)。在此基础上,我们提出了HALCON方法来缓解插入幻觉。HALCON遵循三阶段流程:首先生成初始音频以暴露幻觉片段,随后识别并掩蔽对应的不可靠视频特征,最后使用修正后的条件信息重新生成音频。在多个主流V2A基准上的实验首次表明,最先进的模型存在严重的插入幻觉问题。相比之下,我们的HALCON方法将幻觉的出现频率和持续时间平均降低了50%以上,且未降低——在某些情况下甚至提升了——音频质量和时间同步性等传统指标。本研究首次正式定义、系统测量并有效缓解了插入幻觉问题,为开发更可靠、更忠实的V2A模型铺平了道路。

0
下载
关闭预览

相关内容

【CVPR2024】掩码自解码器是有效的多任务视觉通用模型
专知会员服务
20+阅读 · 2024年3月16日
专知会员服务
41+阅读 · 2021年6月19日
Python图像处理,366页pdf,Image Operators Image Processing in Python
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员