The majority of current TTS datasets, which are collections of individual utterances, contain few conversational aspects in terms of both style and metadata. In this paper, we introduce DailyTalk, a high-quality conversational speech dataset designed for Text-to-Speech. We sampled, modified, and recorded 2,541 dialogues from the open-domain dialogue dataset DailyDialog which are adequately long to represent context of each dialogue. During the data construction step, we maintained attributes distribution originally annotated in DailyDialog to support diverse dialogue in DailyTalk. On top of our dataset, we extend prior work as our baseline, where a non-autoregressive TTS is conditioned on historical information in a dialog. We gather metadata so that a TTS model can learn historical dialog information, the key to generating context-aware speech. From the baseline experiment results, we show that DailyTalk can be used to train neural text-to-speech models, and our baseline can represent contextual information. The DailyTalk dataset and baseline code are freely available for academic use with CC-BY-SA 4.0 license.
翻译:目前的 TTS 数据集大部分是个人话的收集, 包含在风格和元数据方面很少的谈话方面。 在本文中, 我们介绍DailyTalk, 这是为文本到语音设计的一个高质量的谈话语音数据集。 我们从开放式对话数据集 DailyDialog 中抽样、 修改和记录了2 541个对话, 足够长的时间来代表每次对话的背景。 在数据构建过程中, 我们保留了最初在 DailyDialog 中附加注释的属性分布, 以支持 DailyTalk 中的不同对话。 在我们的数据集之上, 我们延长了先前的工作, 将其作为我们的基线, 即一个非侵略性 TTS 以历史信息为条件的对话框。 我们收集了元数据, 这样 TTS 模式可以学习历史对话信息, 这是生成有背景意识的演讲的关键 。 从基线实验结果看, 我们显示 DaiTalk 可用于培养神经文字到语音模型, 我们的基线可以代表背景信息。 每日Talk 数据集和基线代码可以免费使用 CC- BY-SA 4. 0 许可证用于学术用途 。