【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

人工智能辅助音乐创作领域已取得显著进展，但现有系统在满足迭代和细致化音乐制作需求方面仍面临诸多挑战。这些挑战包括对生成内容提供足够的控制能力以及支持灵活、精准的编辑。本论文通过一系列递进式改进，提出了针对这些问题的解决方案，显著提升了文本生成音乐模型的可控性和可编辑性。首先，我提出了 Loop Copilot，一个旨在满足音乐创作迭代优化需求的系统。Loop Copilot 利用大型语言模型（LLM）协调多个专用人工智能模型，使用户能够通过对话界面互动地生成和优化音乐。系统的核心是 全局属性表（Global Attribute Table），该表记录并维护迭代过程中的关键音乐属性，确保各阶段的修改不会破坏音乐整体的连贯性。尽管 Loop Copilot 在音乐创作过程的协调方面表现出色，但其在直接对生成内容进行细致编辑的需求上存在不足。

为克服这一局限，我提出了 MusicMagus，一种面向 AI 生成音乐编辑的解决方案。MusicMagus 引入了零样本文本到音乐编辑（zero-shot text-to-music editing）方法，允许用户修改特定音乐属性，例如流派、情绪和乐器编排，而无需对模型进行重新训练。通过操作预训练扩散模型的潜在空间，MusicMagus 确保了编辑的风格一致性，同时保持非目标属性不受影响。该系统在编辑过程中有效维护了音乐的结构完整性，但在更复杂和真实的音频场景中仍面临一定挑战。

在上述系统进展的基础上，我进一步提出了 Instruct-MusicGen，旨在通过引入指令调优（instruction tuning）解决剩余问题。该方法将指令调优集成到 MusicGen 模型中，使其能够通过文本指令（例如添加、删除或修改特定的音乐轨道）实现精准高效的音乐编辑。Instruct-MusicGen 结合了文本融合模块和音频融合模块，能够同时处理文本指令和音频输入，并生成高质量的编辑音乐。该系统不仅实现了更高的编辑精度，还扩大了音乐语言模型在复杂和动态制作环境中的应用范围，提供了一种可扩展且高效的解决方案。

总体而言，这些贡献构成了一个强大的框架，显著提升了人工智能系统在音乐制作中的可控性和可编辑性。通过逐步解决每种方法的局限性，本论文推动了 AI 辅助音乐创作技术的进步，赋能更加灵活、精准和动态的音乐制作流程。