听、读和识别:音乐的多式歌曲语言识别 (Listen, Read, and Identify: Multimodal Singing Language Identification of Music) - 专知论文

会员服务 ·

0

多峰值 · 模态 · 暂退法 · MoDELS · Performer ·

2021 年 3 月 19 日

Listen, Read, and Identify: Multimodal Singing Language Identification of Music

翻译：听、读和识别:音乐的多式歌曲语言识别

Keunwoo Choi,Yuxuan Wang

We propose a multimodal singing language classification model that uses both audio content and textual metadata. LRID-Net, the proposed model, takes an audio signal and a language probability vector estimated from the metadata and outputs the probabilities of the target languages. Optionally, LRID-Net is facilitated with modality dropouts to handle a missing modality. In the experiment, we trained several LRID-Nets with varying modality dropout configuration and test them with various combinations of input modalities. The experiment results demonstrate that using multimodal input improves the performance. The results also suggest that adopting modality dropout does not degrade performance of the model when there are full modality inputs while enabling the model to handle missing modality cases to some extent.

翻译：我们建议采用多式歌唱语言分类模式,同时使用音频内容和文本元数据。拟议模式LRID-Net采用音频信号和语言概率矢量,根据元数据和产出估计目标语言的概率。可以选择的是,LRID-Net使用模式辍学者处理缺失模式的便利。在实验中,我们培训了数个不同模式辍学配置的LRID-Net,并用各种投入模式组合测试了这些网络。实验结果表明,使用多种模式投入提高了绩效。结果还表明,采用模式辍学不会降低模式在有完整模式投入时的绩效,同时使模式能够在某种程度上处理缺失模式案例。

0

相关内容

多峰值

干货！南京大学吴建鑫教授《模式识别》2021课程，附课件下载

干货！南京大学吴建鑫教授《模式识别》2021课程，附课件下载

专知会员服务

74+阅读 · 2021年4月14日

《深度序列建模》教程84页ppt，麻省理工2021深度学习导论课程MIT6.S191,课程

《深度序列建模》教程84页ppt，麻省理工2021深度学习导论课程MIT6.S191,课程

专知会员服务

49+阅读 · 2021年2月15日

【Yoshua Bengio】因果表示学习，附视频与72页ppt

【Yoshua Bengio】因果表示学习，附视频与72页ppt

专知会员服务

76+阅读 · 2021年1月7日

【干货书】机器学习速查手册，135页pdf

【干货书】机器学习速查手册，135页pdf

专知会员服务

127+阅读 · 2020年11月20日

【干货书】机器学习Primer，122页pdf

【干货书】机器学习Primer，122页pdf

专知会员服务

109+阅读 · 2020年10月5日

【硬核课】最新《图卷积神经网络GCN》2020概述，76页ppt，NTU-Xavier Bresson，纽约大学深度学习课程

【硬核课】最新《图卷积神经网络GCN》2020概述，76页ppt，NTU-Xavier Bresson，纽约大学深度学习课程

专知会员服务

159+阅读 · 2020年5月1日

【课程推荐】人工智能导论：Introduction to Articial Intelligence

【课程推荐】人工智能导论：Introduction to Articial Intelligence

专知会员服务

103+阅读 · 2019年12月20日

【ICIP2019教程-NVIDIA】图像到图像转换，附7份PPT下载

【ICIP2019教程-NVIDIA】图像到图像转换，附7份PPT下载

专知会员服务

55+阅读 · 2019年11月20日

FlowQA: Grasping Flow in History for Conversational Machine Comprehension

FlowQA: Grasping Flow in History for Conversational Machine Comprehension

专知会员服务

33+阅读 · 2019年10月18日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

CCF A类 | 顶级会议RTSS 2019诚邀稿件

CCF A类 | 顶级会议RTSS 2019诚邀稿件

Call4Papers

10+阅读 · 2019年4月17日

CVPR 2018 笔记

CVPR 2018 笔记

计算机视觉战队

3+阅读 · 2018年5月25日

Hierarchical Disentangled Representations

Hierarchical Disentangled Representations

CreateAMind

4+阅读 · 2018年4月15日

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

全球人工智能

20+阅读 · 2017年12月17日

计算机视觉近一年进展综述

计算机视觉近一年进展综述

机器学习研究会

9+阅读 · 2017年11月25日

【推荐】视频目标分割基础

【推荐】视频目标分割基础

机器学习研究会

9+阅读 · 2017年9月19日

课程 | Andrew Ng 深度学习课程笔记3

课程 | Andrew Ng 深度学习课程笔记3

黑龙江大学自然语言处理实验室

3+阅读 · 2017年9月15日

【推荐】RNN/LSTM时序预测

【推荐】RNN/LSTM时序预测

机器学习研究会

25+阅读 · 2017年9月8日

Auto-Encoding GAN

Auto-Encoding GAN

CreateAMind

7+阅读 · 2017年8月4日

Comparing interpretability and explainability for feature selection

Arxiv

1+阅读 · 2021年5月11日

Aggregating Long-Term Context for Learning Laparoscopic and Robot-Assisted Surgical Workflows

Arxiv

0+阅读 · 2021年5月10日

Towards an efficient framework for Data Extraction from Chart Images

Arxiv

0+阅读 · 2021年5月5日

AdaVQA: Overcoming Language Priors with Adapted Margin Cosine Loss

Arxiv

0+阅读 · 2021年5月5日

Evaluating Multimodal Representations on Visual Semantic Textual Similarity

Evaluating Multimodal Representations on Visual Semantic Textual Similarity

Arxiv

6+阅读 · 2020年4月4日

Unified Vision-Language Pre-Training for Image Captioning and VQA

Unified Vision-Language Pre-Training for Image Captioning and VQA

Arxiv

8+阅读 · 2019年10月3日

Music Transformer

Music Transformer

Arxiv

5+阅读 · 2018年12月12日

From direct tagging to Tagging with sentences compression

From direct tagging to Tagging with sentences compression

Arxiv

6+阅读 · 2018年10月5日

Neural Network Models for Paraphrase Identification, Semantic Textual Similarity, Natural Language Inference, and Question Answering

Arxiv

7+阅读 · 2018年6月12日

Multimodal Named Entity Recognition for Short Social Media Posts

Arxiv

8+阅读 · 2018年2月22日

VIP会员

文章信息

相关主题

相关VIP内容

干货！南京大学吴建鑫教授《模式识别》2021课程，附课件下载

干货！南京大学吴建鑫教授《模式识别》2021课程，附课件下载

专知会员服务

74+阅读 · 2021年4月14日

《深度序列建模》教程84页ppt，麻省理工2021深度学习导论课程MIT6.S191,课程

《深度序列建模》教程84页ppt，麻省理工2021深度学习导论课程MIT6.S191,课程

专知会员服务

49+阅读 · 2021年2月15日

【Yoshua Bengio】因果表示学习，附视频与72页ppt

【Yoshua Bengio】因果表示学习，附视频与72页ppt

专知会员服务

76+阅读 · 2021年1月7日

【干货书】机器学习速查手册，135页pdf

【干货书】机器学习速查手册，135页pdf

专知会员服务

127+阅读 · 2020年11月20日

【干货书】机器学习Primer，122页pdf

【干货书】机器学习Primer，122页pdf

专知会员服务

109+阅读 · 2020年10月5日

【硬核课】最新《图卷积神经网络GCN》2020概述，76页ppt，NTU-Xavier Bresson，纽约大学深度学习课程

【硬核课】最新《图卷积神经网络GCN》2020概述，76页ppt，NTU-Xavier Bresson，纽约大学深度学习课程

专知会员服务

159+阅读 · 2020年5月1日

【课程推荐】人工智能导论：Introduction to Articial Intelligence

【课程推荐】人工智能导论：Introduction to Articial Intelligence

专知会员服务

103+阅读 · 2019年12月20日

【ICIP2019教程-NVIDIA】图像到图像转换，附7份PPT下载

【ICIP2019教程-NVIDIA】图像到图像转换，附7份PPT下载

专知会员服务

55+阅读 · 2019年11月20日

FlowQA: Grasping Flow in History for Conversational Machine Comprehension

FlowQA: Grasping Flow in History for Conversational Machine Comprehension

专知会员服务

33+阅读 · 2019年10月18日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

【牛津博士论文】零样本强化学习综述

《美军条令：陆军指挥官与规划人员地理空间指南》60页

战术边缘指挥控制：防务面临的核心挑战

迈向开放世界检测：综述

相关资讯

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

CCF A类 | 顶级会议RTSS 2019诚邀稿件

CCF A类 | 顶级会议RTSS 2019诚邀稿件

Call4Papers

10+阅读 · 2019年4月17日

CVPR 2018 笔记

CVPR 2018 笔记

计算机视觉战队

3+阅读 · 2018年5月25日

Hierarchical Disentangled Representations

Hierarchical Disentangled Representations

CreateAMind

4+阅读 · 2018年4月15日

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

全球人工智能

20+阅读 · 2017年12月17日

计算机视觉近一年进展综述

计算机视觉近一年进展综述

机器学习研究会

9+阅读 · 2017年11月25日

【推荐】视频目标分割基础

【推荐】视频目标分割基础

机器学习研究会

9+阅读 · 2017年9月19日

课程 | Andrew Ng 深度学习课程笔记3

课程 | Andrew Ng 深度学习课程笔记3

黑龙江大学自然语言处理实验室

3+阅读 · 2017年9月15日

【推荐】RNN/LSTM时序预测

【推荐】RNN/LSTM时序预测

机器学习研究会

25+阅读 · 2017年9月8日

Auto-Encoding GAN

Auto-Encoding GAN

CreateAMind

7+阅读 · 2017年8月4日

相关论文

Comparing interpretability and explainability for feature selection

Arxiv

1+阅读 · 2021年5月11日

Aggregating Long-Term Context for Learning Laparoscopic and Robot-Assisted Surgical Workflows

Arxiv

0+阅读 · 2021年5月10日

Towards an efficient framework for Data Extraction from Chart Images

Arxiv

0+阅读 · 2021年5月5日

AdaVQA: Overcoming Language Priors with Adapted Margin Cosine Loss

Arxiv

0+阅读 · 2021年5月5日

Evaluating Multimodal Representations on Visual Semantic Textual Similarity

Evaluating Multimodal Representations on Visual Semantic Textual Similarity

Arxiv

6+阅读 · 2020年4月4日

Unified Vision-Language Pre-Training for Image Captioning and VQA

Unified Vision-Language Pre-Training for Image Captioning and VQA

Arxiv

8+阅读 · 2019年10月3日

Music Transformer

Music Transformer

Arxiv

5+阅读 · 2018年12月12日

From direct tagging to Tagging with sentences compression

From direct tagging to Tagging with sentences compression

Arxiv

6+阅读 · 2018年10月5日

Neural Network Models for Paraphrase Identification, Semantic Textual Similarity, Natural Language Inference, and Question Answering

Arxiv

7+阅读 · 2018年6月12日

Multimodal Named Entity Recognition for Short Social Media Posts

Arxiv

8+阅读 · 2018年2月22日

微信扫码咨询专知VIP会员