Automatic Lyrics Transcription (ALT) for Vietnamese music presents unique challenges due to its tonal complexity and dialectal variations, but remains largely unexplored due to the lack of a dedicated dataset. Therefore, we curated the first large-scale Vietnamese ALT dataset (VietLyrics), comprising 647 hours of songs with line-level aligned lyrics and metadata to address these issues. Our evaluation of current ASRbased approaches reveal significant limitations, including frequent transcription errors and hallucinations in non-vocal segments. To improve performance, we fine-tuned Whisper models on the VietLyrics dataset, achieving superior results compared to existing multilingual ALT systems, including LyricWhiz. We publicly release VietLyrics and our models, aiming to advance Vietnamese music computing research while demonstrating the potential of this approach for ALT in low-resource language and music.


翻译:越南语歌词自动转录(ALT)因其声调复杂性和方言多样性而面临独特挑战,但由于缺乏专用数据集,该领域在很大程度上尚未得到探索。为此,我们构建了首个大规模越南语ALT数据集(VietLyrics),包含647小时的歌曲,并提供了逐行对齐的歌词与元数据以应对这些问题。我们对现有基于自动语音识别(ASR)的方法进行评估,揭示了其显著局限性,包括频繁的转录错误及非人声片段的幻觉生成。为提升性能,我们在VietLyrics数据集上对Whisper模型进行微调,取得了优于现有多语言ALT系统(包括LyricWhiz)的结果。我们公开发布VietLyrics数据集及相关模型,旨在推动越南语音乐计算研究的发展,同时证明该方法在低资源语言及音乐歌词自动转录领域的潜力。

0
下载
关闭预览

相关内容

【CVPR2024】SHiNe:用于开放词汇目标检测的语义层次枢纽
专知会员服务
14+阅读 · 2024年5月18日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员