Code-switching is a speech phenomenon when a speaker switches language during a conversation. Despite the spontaneous nature of code-switching in conversational spoken language, most existing works collect code-switching data through read speech instead of spontaneous speech. ASCEND (A Spontaneous Chinese-English Dataset) introduces a high-quality resource of spontaneous multi-turn conversational dialogue Chinese-English code-switching corpus collected in Hong Kong. We report ASCEND's design and procedure of collecting the speech data, including the annotations in this work. ASCEND includes 23 bilinguals that are fluent in both Chinese and English and consists of 10.62 hours clean speech corpus.


翻译:校对:Portnoy-English Dataset(ASCEND)(自发的中文-英文数据集)引入了在香港收集的自发多方向对话的高质量资源。我们报告ASCEND(ASCEND)设计及程序收集言语数据,包括本文的说明。ASCEND(ASCEND)包括23种英语和中文流利的双语,包括10.62小时的清洁言语材料。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
17篇必看[知识图谱Knowledge Graphs] 论文@AAAI2020
CCF A类 | 顶级会议RTSS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年4月17日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
暗通沟渠:Multi-lingual Attention
我爱读PAMI
7+阅读 · 2018年2月24日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
Arxiv
0+阅读 · 2022年2月19日
Arxiv
7+阅读 · 2018年1月30日
Arxiv
5+阅读 · 2018年1月30日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员