Automatic Music Transcription (AMT), inferring musical notes from raw audio, is a challenging task at the core of music understanding. Unlike Automatic Speech Recognition (ASR), which typically focuses on the words of a single speaker, AMT often requires transcribing multiple instruments simultaneously, all while preserving fine-scale pitch and timing information. Further, many AMT datasets are "low-resource", as even expert musicians find music transcription difficult and time-consuming. Thus, prior work has focused on task-specific architectures, tailored to the individual instruments of each task. In this work, motivated by the promising results of sequence-to-sequence transfer learning for low-resource Natural Language Processing (NLP), we demonstrate that a general-purpose Transformer model can perform multi-task AMT, jointly transcribing arbitrary combinations of musical instruments across several transcription datasets. We show this unified training framework achieves high-quality transcription results across a range of datasets, dramatically improving performance for low-resource instruments (such as guitar), while preserving strong performance for abundant instruments (such as piano). Finally, by expanding the scope of AMT, we expose the need for more consistent evaluation metrics and better dataset alignment, and provide a strong baseline for this new direction of multi-task AMT.


翻译:从原始音频中推断出音乐笔记(AMT)的自动音乐记录(AMT)是音乐理解的核心,是一项具有挑战性的任务。与通常侧重于单一发言者的单词的自动语音识别(ASR)不同,AMT通常要求同时翻译多种工具,同时保存精细的音调和时间信息。此外,许多AMT数据集“资源较低 ”, 因为即使是专业音乐家也发现音乐笔录困难和耗时。因此,先前的工作侧重于根据每项任务的具体工具定制的任务特定结构。在这项工作中,由于低资源自然语言处理的顺序到顺序转移学习(NLP)的有希望的结果,我们证明通用的变换模型可以同时进行多功能的AMT,共同将音乐工具任意结合到数个曲调数据集中。我们展示了这个统一的培训框架在一系列数据集中取得了高质量的抄录结果,大大改进了低资源工具(例如吉他)的性能,同时保持大量仪器(例如钢琴)的强劲性能。最后,我们证明一个通用的变换模型模型模式可以执行多功能,联合翻译和多功能的基线,我们需要更紧密的AMTAMTA的新的数据。

0
下载
关闭预览

相关内容

【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
21+阅读 · 2021年4月20日
【IJCAI2020】TransOMCS: 从语言图谱到常识图谱
专知会员服务
34+阅读 · 2020年5月4日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
CCF推荐 | 国际会议信息6条
Call4Papers
9+阅读 · 2019年8月13日
计算机 | 国际会议信息5条
Call4Papers
3+阅读 · 2019年7月3日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
Arxiv
0+阅读 · 2022年2月21日
Arxiv
5+阅读 · 2020年8月18日
Advances in Online Audio-Visual Meeting Transcription
Arxiv
4+阅读 · 2019年12月10日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
5+阅读 · 2018年1月30日
Arxiv
10+阅读 · 2017年7月4日
VIP会员
相关VIP内容
【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
21+阅读 · 2021年4月20日
【IJCAI2020】TransOMCS: 从语言图谱到常识图谱
专知会员服务
34+阅读 · 2020年5月4日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
相关论文
Top
微信扫码咨询专知VIP会员