Automatic Music Transcription (AMT), inferring musical notes from raw audio, is a challenging task at the core of music understanding. Unlike Automatic Speech Recognition (ASR), which typically focuses on the words of a single speaker, AMT often requires transcribing multiple instruments simultaneously, all while preserving fine-scale pitch and timing information. Further, many AMT datasets are "low-resource", as even expert musicians find music transcription difficult and time-consuming. Thus, prior work has focused on task-specific architectures, tailored to the individual instruments of each task. In this work, motivated by the promising results of sequence-to-sequence transfer learning for low-resource Natural Language Processing (NLP), we demonstrate that a general-purpose Transformer model can perform multi-task AMT, jointly transcribing arbitrary combinations of musical instruments across several transcription datasets. We show this unified training framework achieves high-quality transcription results across a range of datasets, dramatically improving performance for low-resource instruments (such as guitar), while preserving strong performance for abundant instruments (such as piano). Finally, by expanding the scope of AMT, we expose the need for more consistent evaluation metrics and better dataset alignment, and provide a strong baseline for this new direction of multi-task AMT.


翻译:从原始音频中推断出音乐笔记(AMT)的自动音乐记录(AMT)是音乐理解的核心,是一项具有挑战性的任务。与通常侧重于单一发言者的单词的自动语音识别(ASR)不同,AMT通常要求同时翻译多种工具,同时保存精细的音调和时间信息。此外,许多AMT数据集“资源较低 ”, 因为即使是专业音乐家也发现音乐笔录困难和耗时。因此,先前的工作侧重于根据每项任务的具体工具定制的任务特定结构。在这项工作中,由于低资源自然语言处理的顺序到顺序转移学习(NLP)的有希望的结果,我们证明通用的变换模型可以同时进行多功能的AMT,共同将音乐工具任意结合到数个曲调数据集中。我们展示了这个统一的培训框架在一系列数据集中取得了高质量的抄录结果,大大改进了低资源工具(例如吉他)的性能,同时保持大量仪器(例如钢琴)的强劲性能。最后,我们证明一个通用的变换模型模型模式可以执行多功能,联合翻译和多功能的基线,我们需要更紧密的AMTAMTA的新的数据。

0
下载
关闭预览

相关内容

【ACM Multimedia2021-tutorial】可信赖多媒体分析
专知会员服务
17+阅读 · 2021年10月20日
专知会员服务
29+阅读 · 2021年7月30日
专知会员服务
25+阅读 · 2021年4月2日
最新《Transformers模型》教程,64页ppt
专知会员服务
307+阅读 · 2020年11月26日
专知会员服务
26+阅读 · 2020年9月9日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
CCF C类 | DSAA 2019 诚邀稿件
Call4Papers
6+阅读 · 2019年5月13日
学术会议 | 知识图谱顶会 ISWC 征稿:Poster/Demo
开放知识图谱
5+阅读 · 2019年4月16日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
(OpenCV/Keras)用手势控制的计算器
机器学习研究会
3+阅读 · 2018年3月4日
Arxiv
8+阅读 · 2021年3月2日
Arxiv
4+阅读 · 2019年12月2日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Paraphrase Generation with Deep Reinforcement Learning
VIP会员
相关VIP内容
【ACM Multimedia2021-tutorial】可信赖多媒体分析
专知会员服务
17+阅读 · 2021年10月20日
专知会员服务
29+阅读 · 2021年7月30日
专知会员服务
25+阅读 · 2021年4月2日
最新《Transformers模型》教程,64页ppt
专知会员服务
307+阅读 · 2020年11月26日
专知会员服务
26+阅读 · 2020年9月9日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
相关资讯
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
CCF C类 | DSAA 2019 诚邀稿件
Call4Papers
6+阅读 · 2019年5月13日
学术会议 | 知识图谱顶会 ISWC 征稿:Poster/Demo
开放知识图谱
5+阅读 · 2019年4月16日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
(OpenCV/Keras)用手势控制的计算器
机器学习研究会
3+阅读 · 2018年3月4日
相关论文
Top
微信扫码咨询专知VIP会员