大模型如何做音乐？最新89页《音乐基础模型》综述

摘要——近年来，大规模基础模型（FMs）如大型语言模型（LLMs）和潜在扩散模型（LDMs）对包括音乐在内的各个领域产生了深远的影响。本综述全面考察了音乐领域的最先进（SOTA）预训练模型和基础模型，涵盖了表示学习、生成学习和多模态学习。我们首先将音乐在各行业中的重要性置于背景之中，并追溯了人工智能在音乐领域的发展历程。通过分析基础模型针对的多种模态，我们发现许多音乐表示在基础模型的发展中仍然未被充分探索。接着，我们重点探讨了以往方法在多样化音乐应用中的局限性，以及基础模型在音乐理解、生成和医学应用中的潜力。通过全面探讨模型预训练范式、架构选择、标记化、微调方法和可控性，我们强调了诸如指令调优和上下文学习、规模法则和涌现能力、长序列建模等重要议题，应该得到更多关注。我们还专门分析了音乐智能体，并对预训练和下游任务所必需的数据集和评估进行了深入探讨。最后，通过强调伦理考量的重要性，我们倡导未来在音乐基础模型研究中应更加关注可解释性、透明度、人类责任和版权等问题。本文为音乐领域的人机协作未来的挑战和趋势提供了见解，旨在塑造该领域的发展方向。

关键词——自监督学习、基础模型、音乐信息检索、音乐指令跟随、音乐生成

1. 引言

音乐是人类文化的重要组成部分，虽然在各个文化中普遍存在，但其形式却千差万别。音乐的功能包括情感调节、交流、促进社会凝聚力等，广泛应用于艺术、娱乐、宗教和广告领域，并且是一个对全球经济有重要贡献的大型产业。音乐不仅在文化上为人类社会带来益处，而且在与人工智能结合时也带来了独特的技术挑战。计算机音乐领域位于音乐、计算机科学、电气工程和人工智能的交叉点上，借鉴了哲学（美学）、心理学（感知、认知和生产）以及物理学（声学）等学科的知识。对音乐的计算方法通常使用信号处理等技术从音频信号中提取特征，然后应用机器学习算法进行音乐信息检索（MIR）任务或音乐创作。尽管基础模型（FMs）在自然语言处理、计算机视觉和语音处理领域已经得到广泛应用，但我们在艺术领域的AI应用，尤其是音乐领域，仍然处于起步阶段。音乐特有的一个挑战是复调信号建模。与语音和语言信号不同，音乐通常有多个同时发声的“说话者”，且这些“说话者”所表达的“意义”并未与现实世界的物体或事件建立联系。不同音符事件的出现并非独立的，这使得捕捉音乐“语言”的建模任务变得具有挑战性。此外，与语音或一般音频相比，音乐通常持续时间更长，采样率更高，这也增加了对整个音乐片段进行建模的难度。近年来，预训练语言模型（PLMs）的进展在一系列与音乐相关的计算任务中显著优于传统算法，展示了现代机器学习技术在前所未有的规模上理解和处理音乐的潜力。然而，一个关键的瓶颈是数据集的规模和质量。为了使算法在复杂、真实的场景中可靠运行，必须在多样且具有代表性的数据集上进行训练。算法的性能在很大程度上取决于标注数据集的规模及其标注质量，这也说明了为何需要大量高质量的数据。不幸的是，由于版权保护的公共领域数据有限以及标注和注释的高昂成本，音乐数据集往往规模受限。基础模型通过使用自监督学习（SSL）方法在大量未标注的音乐数据上进行预训练，从而解决了这一问题。SSL使模型能够通过利用数据的内在结构，在无需显式标注的情况下学习有意义的表示。这种方法类似于自然的人类学习过程。例如，当儿童听到不同乐器演奏时，他们能够学习每种未知乐器的特征，并在新乐曲中识别这些乐器，而不一定知道它们的名称。同样，SSL使得机器学习模型能够从大量未标注的数据集中提取通用知识，从而提高其在缺乏大量标注数据的下游任务中的性能。与其他领域的成功案例类似，通过这种方法训练的模型在音乐理解和生成方面显示出有希望的结果。

**A. 什么是基础模型？

“基础模型”一词用来描述一种多用途的机器学习模型，该模型并非为单一特定任务而训练，而是作为多个派生模型的基础，这些模型能够执行广泛的任务[BHA+21]。这一术语反映了从传统的架构或任务细节到广泛适用的模型的重点转移，这些模型的涌现能力和泛化能力通过显著增加模型参数数量而得到释放[WBZ+21]，[CND+22]。与强调人工智能发展中狭窄方面的术语（如大型语言模型或自监督学习）相反，“基础模型”捕捉到了这些模型的通用性本质。基础模型的兴起得益于计算硬件的进步、神经网络架构的创新（如Transformer架构），以及对最低限度监督训练范式的关注。基础模型通常采用深度神经网络架构，并在大规模未标注的数据集上使用SSL进行训练。在预训练阶段之后，基础模型可以通过相对轻量级的微调或上下文学习阶段适应各种下游任务，例如使用比预训练数据少几个数量级的标注数据集。从Google的BERT（双向编码器表示Transformers [DCLT18]）和OpenAI的GPT（生成预训练Transformer [BMR+20]）系列语言模型开始，基础模型展示了SSL在大规模网络数据集上训练的强大能力，摆脱了对标注数据的依赖，而这些标注数据在经济上难以扩展到网络规模的数据量。这些PLMs不仅在文本分析和文本生成中展现了其效用，还在其他模态中展示了其价值，包括CLIP [RKH+21a]、DALLE [RPG+21] 和Flamingo [ADL+22]的图像处理，Audiobox [VSL+23]的语音和音频生成，Jukebox [DJP+20a]、MusicLM [ADB+23]和MusicGen [CKG+24]的音乐生成，以及RT-2 [BBC+23]的机器人控制。 2022年Stable Diffusion1和ChatGPT2的发布标志着基础模型在公众影响力以及工业和学术界对AI生成内容（AIGC）的兴趣方面的一个重要转折点。这一显著进展主要得益于对语言指令的跟随能力、在扩展到大型语言模型（LLMs）时算法进展中的涌现能力，以及潜在扩散模型（LDMs）的真实质量[RBL+21]。这些方法表明了人工智能的范式转变，因为通用框架可以支持跨不同领域的多种应用。尽管自AI研究的最初阶段以来，开发具有多任务和未见任务通用能力的AI一直是研究人员的目标[NSS59]，但在随后的几十年里，大多数AI研究都集中在单一或有限数量的预定义任务上。此外，通过自然语言交互访问高级问题解决能力促进了非专业人士的使用。尽管开发基础模型需要大量的资金和计算投资以及大量的人力投入，但为特定需求适应现有模型的成本更为低廉，而Stable Diffusion、Llama [TLI+23a]、Mistral [JSM+23]和MAP-NEO [ZQL+24]等开源基础模型的发布使用户、开发者和研究人员都能够探索这些模型的可能性。本文将讨论两种经过自监督预训练的基础模型，它们可以执行多种下游任务。第一种是单模态预训练模型，适用于波形或符号域，需要对下游任务进行微调。这可以是某种音乐理解的PLM变体，如MERT [LYZ+24]，也可以是音乐生成的PLM，如Jukebox [DJP+20a]。第二种是多模态预训练模型，可以同时接受自然语言和音乐作为输入，并且有潜力通过上下文学习解决下游任务。这包括带有多个文本输入的潜在扩散模型（LDMs），如MusicLDM [CWL+23a]，在LLM前加上音乐编码器的模型，如Mu-llama [LHSS24]，或者带有多模态标记器的LLM，如AnyGPT [ZDY+24]、Gemini 1.5 [RST+24]和GPT-4o。

**B. 为什么选择音乐的基础模型？

音乐的基础模型不仅解决了数据稀缺问题并减少了注释成本，还增强了音乐信息检索和创作中的泛化能力。通过在大型音乐数据集上进行预训练，这些模型提供了对未见结构、流派或乐器的更好理解能力。这些算法还可以通过世界音乐分析、音乐教育和新形式的艺术表达，帮助保护音乐的文化遗产。

对行业的影响：基础模型比以往的方法在音乐方面拥有或将拥有更强大的商业应用潜力，包括在创作过程、音乐理解以及娱乐行业中的应用。

在创意应用领域，AIGC可能是基础模型最明显的应用，包括音乐，如个性化音乐生成和与音乐家的协同创作。基础模型使得能够基于用户指定的偏好（如流派、情绪、节奏和乐器）生成音乐。随着LLMs和LDMs在音乐领域的最新进展，许多具有商业影响力的音乐生成初创公司，如SunoAI、TiangongAI和Udio等，已经涌现。音乐家和制作人可以操控上述参数来引导创作过程，辅助创意构思。这类音乐生成应用能够实现用户与音乐家之间的新型互动形式。音乐可以根据听众的反馈或提示信息进行变化，潜在地创造出更具沉浸感和个性化的听觉体验。此外，基础模型在与音乐家或音乐编辑的协作中表现出更强的专业性和稳定性，能够更好地执行他们的指令。基础模型解决了音乐理解的多个方面。通过分析听众的习惯和理解音乐的偏好，基础模型可以为听众提供更个性化的推荐，改善流媒体平台上的用户体验。基础模型还可以更好地检测翻唱歌曲并识别版权侵权行为，帮助艺术家和公司更有效地保护他们的知识产权。它们还可以提供对音乐作品的分析，帮助音乐学家理解音乐结构、特征等。在娱乐和媒体领域，基础模型可以为音乐家和音乐编辑创建与视觉媒体叙事相对应的自适应音轨，增强电影和电子游戏的影响力和沉浸感。

社会影响：音乐基础模型具有理解、生成和处理音乐的能力，可以对文化和社会产生深远的影响。随着基础模型在各种音乐相关任务中的优势显现，音乐信息检索的大多数主要应用领域都可以视为基础模型的领域，因此基础模型有可能改变我们与音乐互动、保护和理解音乐的方式，这也提出了重要的伦理和文化遗产考量。

关于文化保护与多样性，基础模型可以在保护濒临消失的世界文化和音乐传统中发挥作用。通过分析多样化的音乐数据集，这些模型可以识别出世界各地风格、作品和表演中的独特特征，这类似于当前LLMs在理解小语种方面的能力。此外，基础模型还可以促进文化认知，帮助人们探索世界不同地区的音乐。在音乐人类学领域，基础模型可以作为研究不同国家和时代音乐演变的工具。通过分析大量音乐数据，基础模型可以揭示音乐模式和文化影响。将这种分析与社会和历史数据联系起来，基础模型可能为音乐在不同社会中的角色提供洞见。基础模型可以通过创建适应学习者节奏和风格的个性化学习体验，改善音乐教育。例如，可以作为虚拟导师提供理论和实践知识、反馈、虚拟伴奏和模拟合奏演奏。这可能使音乐教育更易于获得，无论传统音乐教育资源的可用性如何，从而鼓励更包容的音乐学习文化，并消除历史上限制人们参与音乐创作的障碍。在音乐治疗中，基础模型可以定制生成符合个人治疗目标或情感需求的音乐，潜在地提供心理健康支持。同样，在非临床环境中，通过生成反映或对抗听众情绪状态的音乐，基础模型可以在情绪调节和健康实践中发挥作用。基础模型生成模仿人类作品的音乐的能力提出了重要的伦理考量。模型从数百万音乐家和艺术家创作的训练数据中获益这一事实引发了有关数据合法使用的法律挑战和辩论。伦理讨论集中在版权、原创性以及AI在创作过程中的角色等问题上，理想情况下应注重可解释性和透明性。随着这些模型的普及，社会必须在利用技术进行音乐创作创新与尊重人类艺术家的权利和贡献之间取得平衡。音乐基础模型的影响可能是深远的，提供了用于生成、分析和互动音乐的新工具，以及用于音乐教育和治疗的新手段。随着这些模型的发展，必须谨慎考虑其伦理影响，确保它们能够丰富人类文化，促进更公平和包容的全球社会。有关音乐基础模型伦理问题的更多信息，请参见第六节。

**C. 本综述的目标

本综述旨在全面概述与音乐领域相关的基础模型，包括LLMs和LDMs。尽管先前的一些综述文章已经探讨了FMs [BHA+21] 或LLMs [ZZL+23]， [HLC+24] 在特定领域（如视觉 [ZHJL24]，语音 [ZLL+23]， [MMB+23]， [LCP+23] 和音频 [WCL+24]， [MLPW22]， [LSS+23]， [TTG+24]）的应用，但它们并未全面覆盖与音乐相关的FMs应用。此外，先前的音乐综述也未能提供关于FMs的全面概述。例如， [JLY20] 未能纳入2021年后的新进展，特别是在LLMs和音频LDMs方面。同样，[HSF+24] 主要关注数字信号处理方法，忽视了FMs在音乐合成和理解中的整合。[HOHOB22] 虽然简要提到了LLMs和LDMs，但缺乏对其在音乐理解以及多模态性应用中的深入探讨。[ZBRR23] 提供了有限的关于音乐生成模型的讨论，主要侧重于商业场景，忽略了关键技术细节和伦理考量。我们的综述旨在弥合这一差距，回顾从音乐理解到生成、治疗及与这些技术相关的伦理影响的广泛FM应用。通过这样做，我们希望强调音乐数据为FMs提出的独特挑战和机遇，包括建模长期时间依赖性和评估艺术输出等方面。此外，本综述还致力于更新文献中未覆盖的LLMs和音频LDMs的最新进展。 本综述将详细探讨音乐中的基础模型。第2节研究了音乐模态和表示，包括心理声学、音频表示、符号音乐表示及其与其他模态的整合。然后，我们在第3节讨论了FMs在音乐中的多样化应用，包括理解、生成和医学应用。第4节涵盖了FMs的技术方面，重点讨论预训练策略、（指令）微调、模型架构、音频标记化、LLM基础模型的应用、音乐智能体、规模法则和涌现能力，以及未来工作。第5节的讨论扩展到数据集和评估方法，重点介绍了音乐理解和生成任务中声学和符号域的挑战和解决方案。最后几节批判性地评估了在音乐中使用FMs的伦理和社会影响以及版权问题。它们还涉及了潜在的文化问题，包括算法的透明性和互操作性、人类的责任和版权问题。我们建议一般机器学习研究人员关注第2和第3节，计算机音乐研究人员关注第4节中的FM方法论。若需快速入门，请参阅GitHub仓库。