人工智能辅助音乐创作领域已取得显著进展,但现有系统在满足迭代和细致化音乐制作需求方面仍面临诸多挑战。这些挑战包括对生成内容提供足够的控制能力以及支持灵活、精准的编辑。本论文通过一系列递进式改进,提出了针对这些问题的解决方案,显著提升了文本生成音乐模型的可控性和可编辑性。 首先,我提出了 Loop Copilot,一个旨在满足音乐创作迭代优化需求的系统。Loop Copilot 利用大型语言模型(LLM)协调多个专用人工智能模型,使用户能够通过对话界面互动地生成和优化音乐。系统的核心是 全局属性表(Global Attribute Table),该表记录并维护迭代过程中的关键音乐属性,确保各阶段的修改不会破坏音乐整体的连贯性。尽管 Loop Copilot 在音乐创作过程的协调方面表现出色,但其在直接对生成内容进行细致编辑的需求上存在不足。
为克服这一局限,我提出了 MusicMagus,一种面向 AI 生成音乐编辑的解决方案。MusicMagus 引入了零样本文本到音乐编辑(zero-shot text-to-music editing)方法,允许用户修改特定音乐属性,例如流派、情绪和乐器编排,而无需对模型进行重新训练。通过操作预训练扩散模型的潜在空间,MusicMagus 确保了编辑的风格一致性,同时保持非目标属性不受影响。该系统在编辑过程中有效维护了音乐的结构完整性,但在更复杂和真实的音频场景中仍面临一定挑战。
在上述系统进展的基础上,我进一步提出了 Instruct-MusicGen,旨在通过引入指令调优(instruction tuning)解决剩余问题。该方法将指令调优集成到 MusicGen 模型中,使其能够通过文本指令(例如添加、删除或修改特定的音乐轨道)实现精准高效的音乐编辑。Instruct-MusicGen 结合了文本融合模块和音频融合模块,能够同时处理文本指令和音频输入,并生成高质量的编辑音乐。该系统不仅实现了更高的编辑精度,还扩大了音乐语言模型在复杂和动态制作环境中的应用范围,提供了一种可扩展且高效的解决方案。
总体而言,这些贡献构成了一个强大的框架,显著提升了人工智能系统在音乐制作中的可控性和可编辑性。通过逐步解决每种方法的局限性,本论文推动了 AI 辅助音乐创作技术的进步,赋能更加灵活、精准和动态的音乐制作流程。