平安首创AVM自动变奏模型，探秘全球首部AI交响变奏曲背后硬核技术

会员服务 ·

平安首创AVM自动变奏模型，探秘全球首部AI交响变奏曲背后硬核技术

2019 年 10 月 11 日 机器之心

机器之心原创

作者：思、一鸣

在新中国成立 70 周年之际，平安人工智能研究院的学者们构建了首个交响乐创作模型，推出了全球首部 AI 交响变奏曲《我和我的祖国》。这首交响曲作为新中国成立 70 周年的献礼之作，于 10 月 11 日由深圳交响乐团进行全球首次公演。

AI 交响变奏曲演奏现场

想要听听 AI 创作的交响变奏曲？读者们可以点击下面音频看看 AI 在艺术创作领域的潜力到底有多少。

《我和我的祖国》原本就是家喻户晓的经典曲目，在保留原曲风格的基础上进行二次创作，使其具有鲜明的时代特色、赋予其新时期新的内涵，无疑对人工智能是一个挑战。机器之心就此采访了AI交响变奏曲《我和我的祖国》曲目团队技术负责人，揭秘这首国庆献礼乐曲背后的硬核技术。

据了解，AI 交响变奏曲《我和我的祖国》运用了平安首创且行业中尚未发表的具有独创性的 AVM 自动变奏模型，它会利用深度学习技术对音乐作品实现多维度的特征学习与提取，并结合强化学习技术让机器学会变奏手法。总体上，结合规则系统的作曲经验，以及深度模型的学习能力，AI 能找出最能表示主题情感的音乐片段。

声声闻来皆辛苦，AI 谱曲不寻常

能够谱写出波澜壮阔的交响变奏曲，需要的不仅仅是模型与数据的交汇。在 AI 生成《我和我的祖国》交响变奏曲的过程，团队遇到了很多不同的挑战，随之而来的则是诸多技术领域的创新和突破。据悉，这是全球领域首次尝试借助 AI 谱写交响变奏曲。尽管在这一阶段，很多问题都需要用专家规则判断和约束，但通过 AI 与专家知识的结合，使得「AI+音乐」能在教育、配乐等更广泛的实现不同形式的探索和尝试。

两个世界第一

利用 AVM 架构模型生成的 AI 交响曲，实现了两个世界第一：全世界第一个能够进行多旋律交响曲谱曲的 AI 以及全世界第一个可变谱曲风格的 AI。尽管过去很多研究都进行了 AI 谱曲的工作，但生成的乐曲都是单旋律的，其中没有和声、对位，也没有区分声道等音乐中的必备要素。这样的生成结果仅仅只是音符的组合，和实际生活中我们听到的真实歌曲还差了很远。

背后原因在于，目前大部分算法模型并没有完整地输入乐曲的全部信息，而仅仅只是单个音符的序列。研究院在生成乐曲的过程中，采用了多种类别标签的音乐数据，使 AI 同时学习到了曲子的节奏、和声、对位、调式等八种类别的音乐信息，并根据这些信息进行谱曲工作。

此外，过去的多个 AI 生成的结果都带有同样的弊病：仅能实现一种曲风。以谷歌在巴赫诞辰日的产品为例，AI 仅能根据人们输入的旋律进行巴赫风格的模仿，无法换成其他风格。

而据平安研究院介绍，他们的人工智能算法使用了 VAE 模块，其目的就是为了让模型能够根据用户提出的语义信息要求，调整模型的超参数，使得最终生成的乐曲符合用户的需求。这样一来，AI 实现了真正意义上的「按需谱曲」，而不是带着以模仿为核心功能的传声筒。

谱曲到演奏的「最后一公里」由人类专家完成

要保证生成的曲子在实际演出达到预期效果，这是有相当大难度的。

首先，如何将语义信息利用 AI 融入曲子中呢？利用神经网络强大的拟合能力，平安人工智能研究院选择了数万个旋律片段，并根据其表达的情感打上情感标签，然后在模型中使用 transformer 进行训练。这样一来，隐层向量可以学习到特定模式的旋律所对应的语义标签信息，对谱曲中设定好的语义要求进行旋律上的关联。

另一个问题则是 AI 谱曲和真实演奏之间出现的断层问题。我们知道，很多时候序列的生成时不太好控制和约束，难免会出现异常的音符旋律组合。这样会导致 AI 生成的结果无法在实际中进行演奏。例如，一些音符的组合对于人类而言难以演奏（比如指法无法切换），或者生成的旋律不符合乐理规律等。

对于这样的问题，研究者引入了专家知识，使用规则和人类专家干预进行调整和约束。例如，用乐理规则自动化地对错误的序列进行调整，并引入专家进行评价，让人类作曲家进行调整和改进，使得乐队可以演奏最终的谱好的曲子。

AI+音乐： 应用场景广阔

为什么要做 AI 和音乐结合的应用？在平安看来，AI 在音乐场景中有很多应用，有广阔的市场空间待挖掘。

用 AI 辅助歌曲生成，在乐理和文化研究、音乐教育和娱乐消费市场有大量的应用场景。首先，通过 AI 生成特定风格的音乐，有助于研究乐理理论、研究特定地域、文化中的乐曲风格。同时，使用 AI 生成音乐，可以辅助教师教授音乐知识。在娱乐领域，很多短视频和场景有音乐生成的需求，有了 AI，可以针对视频中的语境，或用户对使用场景的需求进行定制，快速生产音乐产品。

平安也已开始尝试将 AI 作曲与营销活动场景相融合，刚刚收官的「平安 920：以 AI 之名」大型综合金融营销活动中，通过个性化的人人作曲游戏，吸引消费者注意力，降低获客门槛，提升主业价值。未来，「AI+音乐」还将结合平安的金融、医疗、智慧城市等生态，探索音乐治疗、音乐生活、音乐教育等多领域的结合情景，可预期，在 AI 音乐的商业价值层面将无可限量。

未来，平安人工智能研究院希望能够进一步探索 AI+音乐的各种应用，让 AI 不仅能够谱曲，还能够作词，并在生成谱子的时候更为智能，更符合真实的演奏环境。AI 交响变奏曲技术负责人表示：「AI 在音乐场景中的应用依然处于『婴儿时期』，我们愿意挑战尖端领域的研究。」

多架构融合谱写变奏交响曲

采访中，平安人工智能研究院相关负责人首先介绍了这一大型献礼项目的创作流程。首先，研究院对国庆献礼进行了讨论，确定使用《我和我的祖国》作为基础曲目，结合《在希望的田野上》等经典曲目，进行整体的创作工作。在此基础上，负责创作的研究者需要为歌曲确定大致的故事脉络走向，为交响乐整体确定故事主题，帮助 AI 约束乐曲变奏过程中的语义信息。

如上所示为首部 AI 交响变奏曲主要生成技术，在海量乐曲数据和体系化的标注下，Transformer 等深度模型能学习到该如何生成变奏段落。但生成的好坏并不能直接判断，因此就需要音乐评价模型与专家规则系统来确定什么是好的变奏曲。下面，让我们具体看看 AVM 模型整体的谱曲过程。

AI 作曲主导，专家评价修改

从算法角度来说，交响变奏曲的谱曲过程类似于对序列数据进行处理和重新生成的过程。输入数据是一段音符序列，而输出则是和输入类似，但进行了修改，和原曲有一定差异的新音符序列。在生成过程中，模型还需要能够根据创作方提出的需求，不断调整模型的参数，使其能够根据要求在生成的序列中融入特定情感语义信息。在完成作品后，乐曲会交由专业人士进行修改和调整，确保符合交响乐的创作规则，具备传承经典性。

尽管谱写乐曲时，模型需要对序列数据进行处理，因此会用到 Seq2Seq 模型。但是，机器之心从平安人工智能研究院了解到，与一般的 Seq2Seq 模型不同，谱写变奏交响乐要求变奏段落以基本段落为基础，并表达不同的情感或语义。这就需要 Seq2Seq 模型同时具有迁移风格的能力。

为了使模型能够达到设计要求，研究院使用了大量的乐曲和带标注的旋律数据训练模型，然后用训练好的模型对《我和我的祖国》等基础曲目进行处理。总共生成了 4 个版本的曲目，交由音乐家进行评价、调优，并最终交由专业的演出乐队进行演奏。

在模型的学习过程中，模型会对音乐作品进行多维度的特征学习，它会融合不同的音乐元素，从而衍生出各段落的音乐主题与对位形式，这就是一种自动变奏技术。评价模型其实后面还会对生成的变奏曲进行评估，从而选择最佳的音乐片段。

自动变奏模型

平安 AI 团队表示，他们对变奏的不同需求使用了不同模型。首先，平安 AI 团队基于 Transformer 架构构建了一种基本变奏模型，然后基于 VAE 架构开发出风格迁移模型，这其中还包括对位算法及节奏量化算法等等。

如下图所示，团队会在生成变奏曲之前预训练 Transformer 编解码器，将长序列音乐主题进行降维表征，让他学会主题的音乐特征。如果将预训练 Transformer 的编码器与解码器分离来看，编码器能将输入信息编码为一个隐向量。这一隐向量包含了音乐主题的特征信息；而解码器则能将隐向量解码为不同的变奏曲。

训练过程中，Transformer 编码器构建的隐向量会被强化学习的 Agent 作为状态表征，用于表示不同的音乐风格与主题特性。 Agent 利用 DQN 构建 Q 值函数，用于生成主题低维表征作为 action，这些低维表征之后可以通过 Transformer 解码器生成完整的变奏曲。当前阶段，模型需要通过专家变奏规则库与奖励函数来评价生成变奏曲的好坏，并将好坏程度转换为对模型的奖励反馈给 Agent。 Agent 会在奖励的驱使下生成符合预期的变奏曲。

在生成阶段，Transformer 解码器生成的变奏曲会直接经过配器和后期处理，从而创造出真实环境下交响乐的音响效果，这个时候专家就可以对生成的乐曲进行判断，如果达到要求就可以直接输出曲谱。

上面只是简要的整体流程，其中 Transformer、DQN、专家变奏规则库等模块都起到了非常重要的作用。但是对于生成特定风格的变奏段落，预训练的 Transformer 和能加入风格特征的 VAE（变分自编码器）显得非常重要。

Transformer+VAE：AVM 的两大模块

Transformer 在 NLP 中是非常优秀的生成模型，不论是机器翻译还是知识问答，它能够利用自注意力机制都能很好地完成这些任务。而变分自编码器（VAE）在图像生成领域也大展身手，它最优秀的特点是能学习到数据中某些隐藏的特性。比如说，VAE 学习到的隐向量中，某个元素能够表达数据「欢快」的程度，而另一个元素则能够表达「民族风」的倾向程度。

如果能够利用好两个模型的优势，在预训练过程中让它们学会各自的本领，那么模型在谱曲的过程中就能把需要表达的音乐元素融合在一起。

如下所示，左右两图分别为使用 Transformer 和 VAE 构建的自动变奏模型。其中，Transformer 可以很好地编码乐谱这种序列数据，如果我们将基本段落作为源序列，再将标注的变奏段落作为目标序列，那么模型就会自动学会怎样将基本段落变换为变奏段落。

那么，这两个模型该如何合作才能构建更合理的变奏段落呢？平安 AI 团队表示，Transformer 是一种基本变奏模型，它学习到的是基本段落与变奏段落之间的差别，但是，无法按照使用者的需求，将变奏曲中需要表达的各种特性手动地加进去。例如我们希望变奏曲变得更「欢快」一些，同时又带有一些「民族风」特色。

但是 VAE 则正好能学习到这些特征。通过调整 VAE 的隐向量，我们可以为变奏段落赋予同的风格。平安 AI 团队表示，因为整个交响曲反映了从鸦片战争到现在中华民族复兴的奋斗主题，因此不同的音乐元素还需要融合，它们需要通过 VAE 加到标准变奏曲中。

AI 编曲的数据之本

对于机器学习模型，数据是最重要的，要学会生成一般的变奏段落，就要求有海量的基本段落和变奏段落；要学会各种曲调风格特征，就要求有各种音乐标签，从而确定不同的旋律到底代表什么语义标签。平安 AI 团队表示，训练数据使用了超过 70 万首乐曲，包括各类题材的古典音乐作品、红色歌曲，以及民歌等作品。研究者用此数据集进行结构化训练，让机器学习及理解音乐重要特征。

除了乐曲的积累，平安 AI 团队表示，他们还积累了全方位的音乐数据，包括歌词、各种专家规则、多种乐器的音源、人类的声音源等声音相关的数据。只有累积了多领域、全方位的音乐数据，才能将它们组合在一起构建更优秀的模型。

多样化的音乐特征标注

有了海量的音乐数据后，这些乐曲应该经过什么样的标注才能满足训练机器学习模型的要求？

在项目中，平安 AI 团队主要从两个层面对结构化的乐曲进行标注。第一，团队需要确定训练用的乐曲表达了什么样的主题、描述了什么样的内容、呈现了什么样的情绪，并按照确定好的主题内容对对应的旋律进行标注。有了这些标注，才能向模型灌输带有语义标签的音乐数据，创造出描述故事脉络和特定主体情绪的变奏曲，这一层面的标注由音乐家和自动化的程序配合完成。

第二，团队需要对音乐作品进行定量分析，根据分析结果进行数据标注。音乐作品本身的结构化信息主要表现为发展手法、和声、曲式、对位、配器、调性、调式、拍号等八个维度。数据标注遵从音乐理论知识，由音乐理论专家团队标注完成。

现在，了解数据的主要结构后，就能更清晰地理解模型结构了。首先将音乐曲谱转变成特定编码格式的词序列，再将上述标注数据作为条件约束嵌入其中。在生成阶段，可以对这些维度进行操控，比如变调、约束和声序进等。

最后，数据与机器学习的配合是非常强大的，像变奏曲这种需要大量原创性的工作，这项研究工作也表明 ML 拥有强大的能力。虽然目前自动变奏模型还有很多改进方向与可能性，但平安的 AI 变奏交响曲确实证明了 ML 在艺术领域的潜力。

本文为机器之心原创，转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心（全职记者 / 实习生）：hr@jiqizhixin.com

投稿或寻求报道：content@jiqizhixin.com

广告 & 商务合作：bd@jiqizhixin.com

登录查看更多