数据库开源 | 200人中英文混说数据库开放申请

2018 年 4 月 11 日 量子位 关注前沿科技

各位语音识别领域的攻城狮小伙伴们,福利来啦!

量子位将与冲浪科技共同开放开源数据库:200人中英文混说数据库冲浪科技为本次数据提供方。此外,我们还将共同打造一个语音识别技术社群,邀请语音领域的研究者进入,为大家打造一个技术交流平台。进入社群的同学,在下次数据开源时可优先申请。

数据集详细信息

采集语言:中英文混读
总人数:200人(约120小时)
发音人:中国人, 口音涵盖中国主要方言区
性别比例:男女各50%
录制规格:16,000Hz, 16bit, mono, 无压缩wav
采集设备:Android和iOS各50%, 涵盖主流手机
采集时间:2017年
采集单位:冲浪科技
市场参考价格:100000人民币

开放人群

参加对象:高校学生、老师及非盈利科研机构研究人员

数据使用:数据仅供科研使用严禁外传,当研究成果进行公开发表时若使用到本数据库应将在文章内引用“ST-CMSD”、“冲浪科技中文普通话语音数据库”或“SurfingTech Chinese Mandarin Speech Dataset”,具体引用位置将在数据发放时一并告知。

如何申请

量子位公众号(QbitAI)界面回复“中英混说数据”,即可领取报名表单。

领取数据的具体流程如下:

1、回复“中英混说数据”,领取表单填写相关信息;

2、报名通过我们会发送确认邮件,并邀请进入语音识别技术社群;

3、申请者确认后发送协议及协议填写说明;

4、收到协议之后发送下载链接给各位申请者。

一些重要的补充说明

信息说明:要免费领取本次开源的数据,需要各单位提供以下信息:单位名称及相关信息、单位负责人联系方式等,待审核完毕及完成相关文件签署后统一发放。

数据使用:数据仅供科研使用严禁外传,当研究成果进行公开发表时若使用到本数据库应将在文章内引用“ST-CMSD”、“冲浪科技中文普通话语音数据库”或“SurfingTech Chinese Mandarin Speech Dataset”,具体引用位置将在数据发放时一并告知。

数据发放:经审核通过后,数据将通过线上发放;下载困难的申请单位可申请线下发放,但需自行承担存储设备及物流费用。

注意事项:各位申请人请尽量使用联通网络下载,而不是校园网络下载,这样下载速度最快。

备注:冲浪科技已经发现少量文本标注不准确。如果大家在使用时发现更多文本标注不准确的地方也请及时告知,冲浪科技正在对所有数据继续校对,后续会定期给大家更新标注文本。

如果始终存在数据下载困难,死活也无法下载的小伙伴,可能是折翼的天使,那么可以自费寄给我们一个硬盘,我们负责帮忙拷贝;或者提供硬盘的费用,我们帮忙京东上购买,拷贝。总之,不能让大家拿不到数据就对了。

以上,祝各位使用愉快~

介绍一下数据提供方

冲浪科技

北京冲浪科技有限公司为本次开源数据提供方,成立于2017年初,创始团队均来自国内外顶尖高校和知名人工智能公司,聘请Andreas Geiger作为首席科学家,力求在自动驾驶汽车、人脸识别、语音识别领域内开发高质量的人工智能训练数据集。

作为全球最大的人工智能资源开放平台,冲浪科技乐意分享每一个有价值的数据集,以提高全球人工智能基础能力。

量子位

量子位是国内领先的专业人工智能垂直媒体,全网用户超过50万。报道方向覆盖新闻资讯和技术发展趋势,为人工智能从业者和爱好者持续输出高质量内容,为普通大众提供看得懂的AI资讯。线上打造万人AI社群,不定期举办AI技术分享、论文解读、行业热点讨论等多项活动。

活动报名

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态


登录查看更多
1

相关内容

数据库( Database )或数据库管理系统( Database management systems )是按照数据结构来组织、存储和管理数据的仓库。目前数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。
【ICMR2020】持续健康状态接口事件检索
专知会员服务
17+阅读 · 2020年4月18日
【资源】100+本免费数据科学书
专知会员服务
106+阅读 · 2020年3月17日
广东疾控中心《新型冠状病毒感染防护》,65页pdf
专知会员服务
18+阅读 · 2020年1月26日
资源|Blockchain区块链中文资源阅读列表
专知会员服务
43+阅读 · 2019年11月20日
SMP2018中文人机对话技术评测
哈工大SCIR
12+阅读 · 2019年3月6日
资源警告!有人收罗了40个中文NLP词库,放到了GitHub上
中国人工智能学会
9+阅读 · 2018年11月16日
资源 | 开源数据集
AI研习社
8+阅读 · 2018年9月25日
推荐 | 中文文本标注工具Chinese-Annotator(内附多个开源文本标注工具)
黑龙江大学自然语言处理实验室
6+阅读 · 2018年1月17日
Neural Response Generation with Meta-Words
Arxiv
6+阅读 · 2019年6月14日
Arxiv
8+阅读 · 2019年3月21日
Area Attention
Arxiv
5+阅读 · 2019年2月5日
Arxiv
7+阅读 · 2018年11月27日
VIP会员
相关资讯
相关论文
Neural Response Generation with Meta-Words
Arxiv
6+阅读 · 2019年6月14日
Arxiv
8+阅读 · 2019年3月21日
Area Attention
Arxiv
5+阅读 · 2019年2月5日
Arxiv
7+阅读 · 2018年11月27日
Top
微信扫码咨询专知VIP会员