音频合成系统中的知识如何提高神经MIDI到音频合成系统的效果？ (Can Knowledge of End-to-End Text-to-Speech Models Improve Neural MIDI-to-Audio Synthesis Systems?) - 专知论文

会员服务 ·

0

语音合成 · MoDELS · 知识 (knowledge) · 端到端 · Extensibility ·

2023 年 3 月 21 日

Can Knowledge of End-to-End Text-to-Speech Models Improve Neural MIDI-to-Audio Synthesis Systems?

翻译：音频合成系统中的知识如何提高神经MIDI到音频合成系统的效果？

Xuan Shi,Erica Cooper,Xin Wang,Junichi Yamagishi,Shrikanth Narayanan

from arxiv, Accepted by ICASSP 2023

With the similarity between music and speech synthesis from symbolic input and the rapid development of text-to-speech (TTS) techniques, it is worthwhile to explore ways to improve the MIDI-to-audio performance by borrowing from TTS techniques. In this study, we analyze the shortcomings of a TTS-based MIDI-to-audio system and improve it in terms of feature computation, model selection, and training strategy, aiming to synthesize highly natural-sounding audio. Moreover, we conducted an extensive model evaluation through listening tests, pitch measurement, and spectrogram analysis. This work demonstrates not only synthesis of highly natural music but offers a thorough analytical approach and useful outcomes for the community. Our code, pre-trained models, supplementary materials, and audio samples are open sourced at https://github.com/nii-yamagishilab/midi-to-audio.

翻译：音乐和语音合成的符号输入之间存在相似之处，随着文本转语音（TTS）技术的快速发展，探索借鉴TTS技术改进MIDI到音频合成效果的方法具有价值。本研究分析了基于TTS的MIDI到音频系统的缺点，并从特征计算、模型选择和训练策略三方面改进它，旨在合成高度自然的声音。此外，我们通过听力测试、音高测量和谱图分析进行了广泛的模型评估。本研究不仅演示了高度自然的音乐合成，而且提供了针对社区的全面分析方法和有用的结果。我们的代码、预训练模型、补充材料和音频样本都在 https://github.com/nii-yamagishilab/midi-to-audio 开源。

0

相关内容

语音合成

语音合成（Speech Synthesis），也称为文语转换（Text-to-Speech, TTS,它是将任意的输入文本转换成自然流畅的语音输出。语音合成涉及到人工智能、心理学、声学、语言学、数字信号处理、计算机科学等多个学科技术，是信息处理领域中的一项前沿技术。随着计算机技术的不断提高，语音合成技术从早期的共振峰合成,逐步发展为波形拼接合成和统计参数语音合成，再发展到混合语音合成；合成语音的质量、自然度已经得到明显提高，基本能满足一些特定场合的应用需求。目前，语音合成技术在银行、医院等的信息播报系统、汽车导航系统、自动应答呼叫中心等都有广泛应用，取得了巨大的经济效益。另外，随着智能手机、MP3、PDA 等与我们生活密切相关的媒介的大量涌现，语音合成的应用也在逐渐向娱乐、语音教学、康复治疗等领域深入。可以说语音合成正在影响着人们生活的方方面面。

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

专知会员服务

44+阅读 · 2020年11月2日

2020数据工程师成长路线图

专知会员服务

19+阅读 · 2020年9月6日

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

专知会员服务

108+阅读 · 2020年5月1日

【技术报告】诺亚开源中文预训练语言模型“哪吒”（NEZHA: Neural Contextualized Representation for Chinese Language Understanding）

【技术报告】诺亚开源中文预训练语言模型“哪吒”（NEZHA: Neural Contextualized Representation for Chinese Language Understanding）

专知会员服务

21+阅读 · 2019年12月12日

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

专知会员服务

95+阅读 · 2019年11月8日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

158+阅读 · 2019年10月12日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

181+阅读 · 2019年10月11日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

104+阅读 · 2019年10月9日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

RoBERTa中文预训练模型：RoBERTa for Chinese

RoBERTa中文预训练模型：RoBERTa for Chinese

PaperWeekly

57+阅读 · 2019年9月16日

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

AINLP

30+阅读 · 2019年9月8日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

基于PyTorch/TorchText的自然语言处理库

基于PyTorch/TorchText的自然语言处理库

专知

28+阅读 · 2019年4月22日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

LibRec 精选：基于LSTM的序列推荐实现（PyTorch）

LibRec 精选：基于LSTM的序列推荐实现（PyTorch）

LibRec智能推荐

50+阅读 · 2018年8月27日

【代码资源】GAN | 七份最热GAN文章及代码分享（Github 1000+Stars）

【代码资源】GAN | 七份最热GAN文章及代码分享（Github 1000+Stars）

专知

12+阅读 · 2018年6月24日

【论文推荐】最新六篇知识图谱相关论文—事件演化图、神经词义消歧、增强神经网络、Mem2Seq、用户偏好传播、概率嵌入

【论文推荐】最新六篇知识图谱相关论文—事件演化图、神经词义消歧、增强神经网络、Mem2Seq、用户偏好传播、概率嵌入

专知

19+阅读 · 2018年6月14日

【论文推荐】最新八篇主题模型相关论文—主题建模优化、变分推断、情绪强度、神经语言模型、搜索、社区聚合、主题建模的问题、光谱学习

【论文推荐】最新八篇主题模型相关论文—主题建模优化、变分推断、情绪强度、神经语言模型、搜索、社区聚合、主题建模的问题、光谱学习

专知

13+阅读 · 2018年3月8日

【推荐】NiftyNet：面向医学图像分析和图像引导治疗的开源CNN平台（附代码）

【推荐】NiftyNet：面向医学图像分析和图像引导治疗的开源CNN平台（附代码）

机器学习研究会

12+阅读 · 2018年1月27日

马铃薯块茎发育过程中茉莉酸调控的磷酸化蛋白质组研究

国家自然科学基金

0+阅读 · 2014年12月31日

高造斜率井眼轨迹控制工具主轴井下力学行为研究

国家自然科学基金

0+阅读 · 2012年12月31日

三维斑点追踪显像提高心脏再同步化治疗效果的实验和临床研究

国家自然科学基金

0+阅读 · 2012年12月31日

输入长时滞非线系统的延时补偿、跟踪和干扰抑制设计

国家自然科学基金

0+阅读 · 2012年12月31日

超声电机技术标准的基础研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于神经网络的癫痫猝死高危人群的机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

加工番茄果茎两级分离机构设计及分离机理研究

国家自然科学基金

0+阅读 · 2009年12月31日

开放式伺服系统中摩擦建模与自适应补偿研究

国家自然科学基金

0+阅读 · 2009年12月31日

听觉反馈调控发声运动的神经机制研究

国家自然科学基金

0+阅读 · 2009年12月31日

准周期声子晶体中的弹性波传播和局部化

国家自然科学基金

0+阅读 · 2009年12月31日

Neural Lyapunov Control for Discrete-Time Systems

Arxiv

0+阅读 · 2023年5月11日

RNNS: Representation Nearest Neighbor Search Black-Box Attack on Code Models

Arxiv

0+阅读 · 2023年5月10日

TidyBot: Personalized Robot Assistance with Large Language Models

Arxiv

0+阅读 · 2023年5月9日

A Simple, Yet Effective Approach to Finding Biases in Code Generation

A Simple, Yet Effective Approach to Finding Biases in Code Generation

Arxiv

0+阅读 · 2023年5月9日

StarCoder: may the source be with you!

Arxiv

1+阅读 · 2023年5月9日

FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance

Arxiv

0+阅读 · 2023年5月9日

Multi-Task End-to-End Training Improves Conversational Recommendation

Arxiv

0+阅读 · 2023年5月8日

Graph Neural Networks for Text Classification: A Survey

Arxiv

34+阅读 · 2023年4月27日

A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT

Arxiv

33+阅读 · 2023年2月18日

A Comprehensive Survey on Transfer Learning

A Comprehensive Survey on Transfer Learning

Arxiv

121+阅读 · 2019年11月7日

VIP会员

文章信息

相关主题

知识 (knowledge)

相关VIP内容

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

专知会员服务

44+阅读 · 2020年11月2日

2020数据工程师成长路线图

专知会员服务

19+阅读 · 2020年9月6日

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

专知会员服务

108+阅读 · 2020年5月1日

【技术报告】诺亚开源中文预训练语言模型“哪吒”（NEZHA: Neural Contextualized Representation for Chinese Language Understanding）

【技术报告】诺亚开源中文预训练语言模型“哪吒”（NEZHA: Neural Contextualized Representation for Chinese Language Understanding）

专知会员服务

21+阅读 · 2019年12月12日

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

专知会员服务

95+阅读 · 2019年11月8日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

158+阅读 · 2019年10月12日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

181+阅读 · 2019年10月11日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

104+阅读 · 2019年10月9日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

【UCSD博士论文】可控且高效的视觉生成

构建具身智能新范式：人形机器人技术现状及发展趋势综述

中文版 | 美军引入AI指挥官“泰坦”推动国防技术转型

【ICML2025】《引入推理于视觉：通过模型融合理解感知与推理》

相关资讯

RoBERTa中文预训练模型：RoBERTa for Chinese

RoBERTa中文预训练模型：RoBERTa for Chinese

PaperWeekly

57+阅读 · 2019年9月16日

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

AINLP

30+阅读 · 2019年9月8日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

基于PyTorch/TorchText的自然语言处理库

基于PyTorch/TorchText的自然语言处理库

专知

28+阅读 · 2019年4月22日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

LibRec 精选：基于LSTM的序列推荐实现（PyTorch）

LibRec 精选：基于LSTM的序列推荐实现（PyTorch）

LibRec智能推荐

50+阅读 · 2018年8月27日

【代码资源】GAN | 七份最热GAN文章及代码分享（Github 1000+Stars）

【代码资源】GAN | 七份最热GAN文章及代码分享（Github 1000+Stars）

专知

12+阅读 · 2018年6月24日

【论文推荐】最新六篇知识图谱相关论文—事件演化图、神经词义消歧、增强神经网络、Mem2Seq、用户偏好传播、概率嵌入

【论文推荐】最新六篇知识图谱相关论文—事件演化图、神经词义消歧、增强神经网络、Mem2Seq、用户偏好传播、概率嵌入

专知

19+阅读 · 2018年6月14日

【论文推荐】最新八篇主题模型相关论文—主题建模优化、变分推断、情绪强度、神经语言模型、搜索、社区聚合、主题建模的问题、光谱学习

【论文推荐】最新八篇主题模型相关论文—主题建模优化、变分推断、情绪强度、神经语言模型、搜索、社区聚合、主题建模的问题、光谱学习

专知

13+阅读 · 2018年3月8日

【推荐】NiftyNet：面向医学图像分析和图像引导治疗的开源CNN平台（附代码）

【推荐】NiftyNet：面向医学图像分析和图像引导治疗的开源CNN平台（附代码）

机器学习研究会

12+阅读 · 2018年1月27日

相关论文

Neural Lyapunov Control for Discrete-Time Systems

Arxiv

0+阅读 · 2023年5月11日

RNNS: Representation Nearest Neighbor Search Black-Box Attack on Code Models

Arxiv

0+阅读 · 2023年5月10日

TidyBot: Personalized Robot Assistance with Large Language Models

Arxiv

0+阅读 · 2023年5月9日

A Simple, Yet Effective Approach to Finding Biases in Code Generation

A Simple, Yet Effective Approach to Finding Biases in Code Generation

Arxiv

0+阅读 · 2023年5月9日

StarCoder: may the source be with you!

Arxiv

1+阅读 · 2023年5月9日

FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance

Arxiv

0+阅读 · 2023年5月9日

Multi-Task End-to-End Training Improves Conversational Recommendation

Arxiv

0+阅读 · 2023年5月8日

Graph Neural Networks for Text Classification: A Survey

Arxiv

34+阅读 · 2023年4月27日

A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT

Arxiv

33+阅读 · 2023年2月18日

A Comprehensive Survey on Transfer Learning

A Comprehensive Survey on Transfer Learning

Arxiv

121+阅读 · 2019年11月7日

相关基金

马铃薯块茎发育过程中茉莉酸调控的磷酸化蛋白质组研究

国家自然科学基金

0+阅读 · 2014年12月31日

高造斜率井眼轨迹控制工具主轴井下力学行为研究

国家自然科学基金

0+阅读 · 2012年12月31日

三维斑点追踪显像提高心脏再同步化治疗效果的实验和临床研究

国家自然科学基金

0+阅读 · 2012年12月31日

输入长时滞非线系统的延时补偿、跟踪和干扰抑制设计

国家自然科学基金

0+阅读 · 2012年12月31日

超声电机技术标准的基础研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于神经网络的癫痫猝死高危人群的机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

加工番茄果茎两级分离机构设计及分离机理研究

国家自然科学基金

0+阅读 · 2009年12月31日

开放式伺服系统中摩擦建模与自适应补偿研究

国家自然科学基金

0+阅读 · 2009年12月31日

听觉反馈调控发声运动的神经机制研究

国家自然科学基金

0+阅读 · 2009年12月31日

准周期声子晶体中的弹性波传播和局部化

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员