Sound effects build an essential layer of multimodal storytelling, shaping the emotional atmosphere and the narrative semantics of videos. Despite recent advancement in video-text-to-audio (VT2A), the current formulation faces three key limitations: First, an imbalance between visual and textual conditioning that leads to visual dominance; Second, the absence of a concrete definition for fine-grained controllable generation; Third, weak instruction understanding and following, as existing datasets rely on brief categorical tags. To address these limitations, we introduce EchoFoley, a new task designed for video-grounded sound generation with both event level local control and hierarchical semantic control. Our symbolic representation for sounding events specifies when, what, and how each sound is produced within a video or instruction, enabling fine-grained controls like sound generation, insertion, and editing. To support this task, we construct EchoFoley-6k, a large-scale, expert-curated benchmark containing over 6,000 video-instruction-annotation triplets. Building upon this foundation, we propose EchoVidia a sounding-event-centric agentic generation framework with slow-fast thinking strategy. Experiments show that EchoVidia surpasses recent VT2A models by 40.7% in controllability and 12.5% in perceptual quality.


翻译:音效构建了多模态叙事的关键层次,塑造视频的情感氛围与叙事语义。尽管视频-文本到音频(VT2A)领域近期取得进展,现有范式仍面临三个关键局限:其一,视觉与文本条件间的不平衡导致视觉主导;其二,缺乏细粒度可控生成的具体定义;其三,指令理解与遵循能力薄弱,因现有数据集依赖简略的类别标签。为应对这些局限,我们提出EchoFoley——一种面向视频声音生成的新任务,兼具事件级局部控制与分层语义控制。我们设计的发声事件符号化表征明确了视频或指令中每个声音在何时、以何种方式产生何种内容,从而支持声音生成、插入与编辑等细粒度控制。为支撑该任务,我们构建了EchoFoley-6k:一个由专家标注的大规模基准数据集,包含超过6,000个视频-指令-标注三元组。在此基础上,我们提出EchoVidia——一个以发声事件为中心、采用慢-快思维策略的智能体生成框架。实验表明,EchoVidia在可控性上超越近期VT2A模型40.7%,在感知质量上提升12.5%。

0
下载
关闭预览

相关内容

【CVPR2024】VidLA: 大规模视频-语言对齐
专知会员服务
20+阅读 · 2024年3月31日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
使用RNN-Transducer进行语音识别建模【附PPT与视频资料】
人工智能前沿讲习班
74+阅读 · 2019年1月29日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员