音乐演奏家恐将失业,Facebook首次提出音乐风格翻译



来自Facebook人工智能研究(FAIR)的研究人员开发了一种可以翻译音乐的AI系统,该系统可以接受各种乐器的音频输入——不管是大规模的多乐器交响乐还是简单的哨音,并输出其他风格的音乐。比如在视频1分45秒处有段单人用口哨哼出一段旋律,然后机器自动将这段简单的旋律转换成交响乐演奏形式。这是人工智能第一次通过自动地在不同的乐器之间转换,以及不同的音乐风格和音乐类型来创造高保真音乐。这是研究人工智能的一个重要步骤,但这仅仅需要很少量的训练——该团队的自动编码器可以在不经过准备或监督的情况下转换不熟悉的音乐。这项工作也指出了人工智能助力音乐创作的可能性,你只需要哼出旋律就可以自动生成整首歌的乐器伴奏。

 

https://arxiv.org/abs/1805.07848

 


背景




FAIR的通用音乐翻译系统是人工智能社区对无监督翻译的更大探索的一部分。典型的翻译系统通过样本来学习d额,人工智能通过匹配图像或文本对进行训练,从而建立一种使得给定数据段与另一段数据相似的感觉。研究人员称这种方式为“监督式学习”,尽管它是训练人工智能的最常见方式,但它也耗费时间和人力,并且可能导致无法适应当下的系统。


解策略混淆网络




FAIR的方法仍然需要训练过程来创造不同类型的音乐输出——例如贝多芬风格的钢琴或者cantanta的合唱声。但是为了让系统在无监督监管的情况下转换音乐——甚至可以说是即兴的,团队故意扭曲了音乐的输入,用了一个叫做域混淆网络(domain confusion network)的东西。这可以防止AI只编码特定域(domain-specific)的旋律信息。换句话说,该系统被迫忽略了录制歌曲的风格,流派和乐器的独特方面,并根据音乐的核心共性结构创建了“翻译”。


耳听为实




来自FAIR的一篇新论文“A Universal Music Translation Network”详细介绍了该系统的单编码器,基于WaveNet的架构,其中包括扭曲音乐输入的新颖方法——将其略微调走调,以及使用八个Tesla V100 GPU在六个不同的音乐类型进行为期六天的训练。这篇论文还包括了提出了新的评价打分方法----系统在把一种乐器转换成另一种乐器时表现得是好还是差。这一点非常重要,因为许多人都无法分辨出哪个文件是原始输入或AI生成的输出。但这项研究带来最大的震撼来自于你自己亲自听到翻以前和翻译后的音频对比,你会感叹AI的强大力量。在演示中有些风格的转换比较粗糙,所以系统提供了一些实际的调整。



下一步计划




Facebook还没有推出基于这项工作的特定产品或功能的计划,但FAIR的研究表明是AI在推动人类创造力方面的巨大潜力。 通过用你哼唱的声音就可以谱写整个交响曲,把简单的吉他或MIDI曲调转变成分层的声音,这种方法可以使歌曲创作大众化,使音乐制作更加容易获得。


By: Noam Mor, Lior Wolf, Adam Polyak, Yaniv Taigman

编译 | 专知

参与 | Mandy, Sanglei


原文链接:

https://research.fb.com/facebook-researchers-use-ai-to-turn-whistles-into-orchestral-music-and-power-other-musical-translations/

-END-

专 · 知

人工智能领域主题知识资料查看与加入专知人工智能知识星球服务群

【专知AI服务计划】专知AI知识技术服务会员群加入人工智能领域26个主题知识资料全集获取欢迎微信扫一扫加入专知人工智能知识星球群,获取专业知识教程视频资料和与专家交流咨询

请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料

请加专知小助手微信(扫一扫如下二维码添加),加入专知主题群(请备注主题类型:AI、NLP、CV、 KG等)交流~

关注专知公众号,获取人工智能的专业知识!

点击“阅读原文”,使用专知

展开全文
Top
微信扫码咨询专知VIP会员