第四届AutoDL挑战赛——AutoSpeech2019正式开赛

2019 年 9 月 20 日 PaperWeekly






AutoSpeech

2019




AutoSpeech挑战赛已于近日正式开始,本次挑战赛是2019年亚洲机器学习大会(ACML)主会议竞赛环节,由第四范式和ChaLearn联合承办,谷歌赞助支持。AutoSpeech是继AutoCV、AutoCV2、AutoNLP后的第四届AutoDL挑战赛,聚焦自动语音分类(AutoSpeech)挑战任务,旨在让参赛选手设计开发全自动的语音多分类系统,通过原始语音数据和必要的数据信息,自动挖掘语音中的各种信息,包括声纹、语种、情感等。


近年来,深度学习(DL)在说话人识别、语种识别、情感识别等各种语音相关的任务中取得了显著成功。然而对于每一个语音任务,仍然需要大量的专家知识和人工成本。而自动深度学习(AutoDL)的提出可以帮助解决这个问题。其可以对于特定的任务,探索出一套自动训练模型的流程,高效合理的解决这个任务。


本次赛事主要负责人、第四范式 主任算法科学家 涂威威表示: 过去两年时间,AutoML比赛已经成功举办8届。 无论是自动机器学习还是自动深度学习,都引起了学术研究者和行业从业者的关注。 深度学习在图像、语音等方面的明显优势让AutoDL成为目前炙手可热的重要研究方向。 本次AutoSpeech挑战赛,希望有更多自动机器学习和智能语音的研究者和从业者参与,探索在语音相关的任务中更好的自动化解决方案,共同推动AutoML在语音领域的发展。



关于比赛


挑战赛主办方为本次AutoSpeech挑战赛准备了15个语音分类数据集,其中包括 5个离线公共数据集(用于选手开发和训练自己的AutoSpeech程序)、5个线上公共数据集(用于盲测,选手无法获得数据集任何信息)、5个私有数据集(用于盲测,选手无法获得数据集任何信息)。比赛平台将提供统一配置的GPU服务器进行相同环境相同计算资源的测试,并设定每个评测数据集的运行时长。选手也可使用自行训练的预训练模型。


每个数据集来自五个不同的语音分类领域之一,包括:说话人识别,情感识别,口音识别,语种识别和音乐流派分类。每个数据集大约包含几百到几千条语音的训练数据,且都是多分类任务(最多100分类)。所有音频数据都以16kHz的采样速率转换为单通道16位流,并用python的librosa读入后转储为pickle格式(向量列表包含一个数据集中的所有训练或测试音频)。
注意,数据集的每条样本长度可能不同。


数据集由内容文件、标签文件和元信息文件组成,其中内容文件和标签文件分为训练部分和测试部分:内容文件({train,test}.pkl)包含音频的样本,其格式为向量列表。


赛事挑战


本次全球首次自动语音竞赛,重点针对语音分类任务,参赛选手将面临如下挑战: 
-如何在语音数据中自动发现各种语义或非语义信息?
-如何为不同的语音任务自动提取有用特征?
-如何自动处理不同长度的语音数据? 
-如何自动设计有效的神经网络结构?
-如何构建和自动调整预先训练的模型?
同时,参赛选手需考虑:
-如何自动高效地选择恰当的机器学习模型与超参数? 
-如何提高解决方案的通用性?即如何保证解决方案在未知任务中的适用性?
-如何控制计算和内存成本?


赛程时间


北京时间(UTC+8)
2019年9月16日16:59:反馈阶段的开始,练习数据集的发布。参赛选手可以开始提交代码并在排行榜中获得即时反馈。
2019年10月07日23:59:参赛选手真实身份验证
2019年10月14日23:59:反馈阶段结束。
2019年10月15日00:00:检查阶段开始。
2019年10月18日19:59:检查阶段结束。
2019年10月18日20:00:最终阶段开始。
2019年10月20日20:00:重新提交截止日期。
2019年10月22日20:00:最终阶段结束。
请注意CODALAB平台使用UTC时间格式,以免错过比赛每个阶段的时间点。

赛事规则


本次挑战赛分为三个阶段(反馈阶段、检查阶段和最终阶段),首先参赛选手通过下载五个练习数据集,离线开发自己的AutoSpeech程序。然后进入反馈阶段,参赛者将自己的AutoSpeech程序代码上传到平台上,并通过在另外五个验证数据集测试,得到其性能的即时反馈。反馈阶段结束后,将进入检查阶段,参赛选手只允许在私有数据集上提交一次代码,以便进行调试。此时,参赛选手将无法阅读详细的日志,但是他们能够看到他们的代码是否报告错误。最终阶段,参赛选手的AutoSpeech程序在五个测试数据集上进行评估。最终阶段的排名将决定获胜者。


赛事奖励


第一名: $2000
第二名: $1500
第三名: $500

AutoML历届赛事


- First AutoML Challenge
- AutoML@PAKDD2018
- AutoML@NeurIPS2018
- AutoML@PAKDD2019
- AutoML@KDDCUP2019
- AutoCV@IJCNN2019
- AutoCV2@ECML PKDD2019
- AutoNLP@WAIC2019


对AutoSpeech2019挑战赛感兴趣的朋友,可以点击"阅读原文"查看官网详细信息,参与挑战赛。
登录查看更多
3

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
最新《知识蒸馏》2020综述论文,20页pdf,悉尼大学
专知会员服务
157+阅读 · 2020年6月14日
最新《自动微分手册》77页pdf
专知会员服务
100+阅读 · 2020年6月6日
零样本图像识别综述论文
专知会员服务
57+阅读 · 2020年4月4日
阿里巴巴达摩院发布「2020十大科技趋势」
专知会员服务
106+阅读 · 2020年1月2日
【NeurIPS 2019 Apple成果汇总】《Apple at NeurIPS 2019》
专知会员服务
10+阅读 · 2019年12月6日
资源 | 开源数据集
AI研习社
8+阅读 · 2018年9月25日
DTalk|自动化机器学习-人工智能的未来
机器之心
4+阅读 · 2018年9月15日
Kaggle 新赛:第二届 YouTube-8M 视频理解挑战赛
AI研习社
10+阅读 · 2018年5月26日
AI 竞赛 | 2018 机器阅读理解技术竞赛
AI研习社
7+阅读 · 2018年3月16日
HAQ: Hardware-Aware Automated Quantization
Arxiv
6+阅读 · 2018年11月21日
Arxiv
3+阅读 · 2018年6月1日
Arxiv
3+阅读 · 2018年3月2日
Arxiv
4+阅读 · 2018年2月13日
Arxiv
6+阅读 · 2018年2月7日
VIP会员
相关VIP内容
最新《知识蒸馏》2020综述论文,20页pdf,悉尼大学
专知会员服务
157+阅读 · 2020年6月14日
最新《自动微分手册》77页pdf
专知会员服务
100+阅读 · 2020年6月6日
零样本图像识别综述论文
专知会员服务
57+阅读 · 2020年4月4日
阿里巴巴达摩院发布「2020十大科技趋势」
专知会员服务
106+阅读 · 2020年1月2日
【NeurIPS 2019 Apple成果汇总】《Apple at NeurIPS 2019》
专知会员服务
10+阅读 · 2019年12月6日
Top
微信扫码咨询专知VIP会员