能够谱写出波澜壮阔的交响变奏曲,需要的不仅仅是模型与数据的交汇。在 AI 生成《我和我的祖国》交响变奏曲的过程,团队遇到了很多不同的挑战,随之而来的则是诸多技术领域的创新和突破。据悉,这是全球领域首次尝试借助 AI 谱写交响变奏曲。尽管在这一阶段,很多问题都需要用专家规则判断和约束,但通过 AI 与专家知识的结合,使得「AI+音乐」能在教育、配乐等更广泛的实现不同形式的探索和尝试。 两个世界第一
利用 AVM 架构模型生成的 AI 交响曲,实现了两个世界第一:全世界第一个能够进行多旋律交响曲谱曲的 AI 以及全世界第一个可变谱曲风格的 AI。尽管过去很多研究都进行了 AI 谱曲的工作,但生成的乐曲都是单旋律的,其中没有和声、对位,也没有区分声道等音乐中的必备要素。这样的生成结果仅仅只是音符的组合,和实际生活中我们听到的真实歌曲还差了很远。
背后原因在于,目前大部分算法模型并没有完整地输入乐曲的全部信息,而仅仅只是单个音符的序列。研究院在生成乐曲的过程中,采用了多种类别标签的音乐数据,使 AI 同时学习到了曲子的节奏、和声、对位、调式等八种类别的音乐信息,并根据这些信息进行谱曲工作。
此外,过去的多个 AI 生成的结果都带有同样的弊病:仅能实现一种曲风。以谷歌在巴赫诞辰日的产品为例,AI 仅能根据人们输入的旋律进行巴赫风格的模仿,无法换成其他风格。
为什么要做 AI 和音乐结合的应用?在平安看来,AI 在音乐场景中有很多应用,有广阔的市场空间待挖掘。
用 AI 辅助歌曲生成,在乐理和文化研究、音乐教育和娱乐消费市场有大量的应用场景。首先,通过 AI 生成特定风格的音乐,有助于研究乐理理论、研究特定地域、文化中的乐曲风格。同时,使用 AI 生成音乐,可以辅助教师教授音乐知识。在娱乐领域,很多短视频和场景有音乐生成的需求,有了 AI,可以针对视频中的语境,或用户对使用场景的需求进行定制,快速生产音乐产品。
平安也已开始尝试将 AI 作曲与营销活动场景相融合,刚刚收官的「平安 920:以 AI 之名」大型综合金融营销活动中,通过个性化的人人作曲游戏,吸引消费者注意力,降低获客门槛,提升主业价值。未来,「AI+音乐」还将结合平安的金融、医疗、智慧城市等生态,探索音乐治疗、音乐生活、音乐教育等多领域的结合情景,可预期,在 AI 音乐的商业价值层面将无可限量。
未来,平安人工智能研究院希望能够进一步探索 AI+音乐的各种应用,让 AI 不仅能够谱曲,还能够作词,并在生成谱子的时候更为智能,更符合真实的演奏环境。AI 交响变奏曲技术负责人表示:「AI 在音乐场景中的应用依然处于『婴儿时期』,我们愿意挑战尖端领域的研究。」
多架构融合谱写变奏交响曲
采访中,平安人工智能研究院相关负责人首先介绍了这一大型献礼项目的创作流程。首先,研究院对国庆献礼进行了讨论,确定使用《我和我的祖国》作为基础曲目,结合《在希望的田野上》等经典曲目,进行整体的创作工作。在此基础上,负责创作的研究者需要为歌曲确定大致的故事脉络走向,为交响乐整体确定故事主题,帮助 AI 约束乐曲变奏过程中的语义信息。
如上所示为首部 AI 交响变奏曲主要生成技术,在海量乐曲数据和体系化的标注下,Transformer 等深度模型能学习到该如何生成变奏段落。但生成的好坏并不能直接判断,因此就需要音乐评价模型与专家规则系统来确定什么是好的变奏曲。下面,让我们具体看看 AVM 模型整体的谱曲过程。
如下所示,左右两图分别为使用 Transformer 和 VAE 构建的自动变奏模型。其中,Transformer 可以很好地编码乐谱这种序列数据,如果我们将基本段落作为源序列,再将标注的变奏段落作为目标序列,那么模型就会自动学会怎样将基本段落变换为变奏段落。 那么,这两个模型该如何合作才能构建更合理的变奏段落呢?平安 AI 团队表示,Transformer 是一种基本变奏模型,它学习到的是基本段落与变奏段落之间的差别,但是,无法按照使用者的需求,将变奏曲中需要表达的各种特性手动地加进去。例如我们希望变奏曲变得更「欢快」一些,同时又带有一些「民族风」特色。
但是 VAE 则正好能学习到这些特征。通过调整 VAE 的隐向量,我们可以为变奏段落赋予同的风格。平安 AI 团队表示,因为整个交响曲反映了从鸦片战争到现在中华民族复兴的奋斗主题,因此不同的音乐元素还需要融合,它们需要通过 VAE 加到标准变奏曲中。
AI 编曲的数据之本
对于机器学习模型,数据是最重要的,要学会生成一般的变奏段落,就要求有海量的基本段落和变奏段落;要学会各种曲调风格特征,就要求有各种音乐标签,从而确定不同的旋律到底代表什么语义标签。平安 AI 团队表示,训练数据使用了超过 70 万首乐曲,包括各类题材的古典音乐作品、红色歌曲,以及民歌等作品。研究者用此数据集进行结构化训练,让机器学习及理解音乐重要特征。
除了乐曲的积累,平安 AI 团队表示,他们还积累了全方位的音乐数据,包括歌词、各种专家规则、多种乐器的音源、人类的声音源等声音相关的数据。只有累积了多领域、全方位的音乐数据,才能将它们组合在一起构建更优秀的模型。
多样化的音乐特征标注
有了海量的音乐数据后,这些乐曲应该经过什么样的标注才能满足训练机器学习模型的要求?
在项目中,平安 AI 团队主要从两个层面对结构化的乐曲进行标注。第一,团队需要确定训练用的乐曲表达了什么样的主题、描述了什么样的内容、呈现了什么样的情绪,并按照确定好的主题内容对对应的旋律进行标注。有了这些标注,才能向模型灌输带有语义标签的音乐数据,创造出描述故事脉络和特定主体情绪的变奏曲,这一层面的标注由音乐家和自动化的程序配合完成。