Text-guided audio editing aims to modify specific acoustic events while strictly preserving non-target content. Despite recent progress, existing approaches remain fundamentally limited. Training-free methods often suffer from signal degradation caused by diffusion inversion, while training-based methods, although achieving higher generation quality, are severely constrained by the scarcity of high-quality paired data and task formulations that cover only a narrow subset of editing operations. In addition, standard architectures typically decouple text and audio processing, limiting the ability to align instructions with specific acoustic contexts. To address these challenges, we propose MMEdit, an audio-language-model-driven framework for unified audio editing. We systematically extend task definitions to cover a comprehensive range of editing operations, including addition, replacement, removal, reordering, and attribute modification. Furthermore, we design a scalable data synthesis pipeline to construct large-scale paired datasets with fine-grained event-level annotations. To capture complex editing semantics, we integrate a Qwen2-Audio encoder with an MMDiT-based generator, enabling precise cross-modal alignment and localized editing. Experimental results demonstrate that our method achieves superior editing localization accuracy, robust instruction following, and high fidelity in non-edited regions.


翻译:文本引导的音频编辑旨在修改特定声学事件,同时严格保留非目标内容。尽管近期取得进展,现有方法仍存在根本性局限:免训练方法常因扩散逆过程导致信号退化;基于训练的方法虽能实现更高生成质量,却严重受限于高质量配对数据的稀缺性,且任务定义仅覆盖狭窄的编辑操作子集。此外,标准架构通常将文本与音频处理解耦,限制了指令与特定声学语境的对齐能力。为应对这些挑战,我们提出MMEdit——一个基于音频语言模型的统一音频编辑框架。我们系统性地扩展了任务定义,涵盖添加、替换、移除、重排序及属性修改等完整编辑操作谱系。进一步设计了可扩展的数据合成流程,构建具有细粒度事件级标注的大规模配对数据集。为捕捉复杂编辑语义,我们集成Qwen2-Audio编码器与基于MMDiT的生成器,实现精确的跨模态对齐与局部化编辑。实验结果表明,本方法在编辑定位精度、指令遵循鲁棒性及非编辑区域保真度方面均达到优越性能。

0
下载
关闭预览

相关内容

【CVPR2025】基于组合表示移植的图像编辑方法
专知会员服务
8+阅读 · 4月5日
Python图像处理,366页pdf,Image Operators Image Processing in Python
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员