第四届AutoDL挑战赛——AutoSpeech2019正式开赛

2019 年 9 月 20 日 PaperWeekly

AutoSpeech

2019

AutoSpeech挑战赛已于近日正式开始，本次挑战赛是2019年亚洲机器学习大会（ACML）主会议竞赛环节，由第四范式和ChaLearn联合承办，谷歌赞助支持。AutoSpeech是继AutoCV、AutoCV2、AutoNLP后的第四届AutoDL挑战赛，聚焦自动语音分类（AutoSpeech）挑战任务，旨在让参赛选手设计开发全自动的语音多分类系统，通过原始语音数据和必要的数据信息，自动挖掘语音中的各种信息，包括声纹、语种、情感等。

近年来，深度学习（DL）在说话人识别、语种识别、情感识别等各种语音相关的任务中取得了显著成功。然而对于每一个语音任务，仍然需要大量的专家知识和人工成本。而自动深度学习（AutoDL）的提出可以帮助解决这个问题。其可以对于特定的任务，探索出一套自动训练模型的流程，高效合理的解决这个任务。

本次赛事主要负责人、第四范式主任算法科学家涂威威表示：过去两年时间，AutoML比赛已经成功举办8届。无论是自动机器学习还是自动深度学习，都引起了学术研究者和行业从业者的关注。深度学习在图像、语音等方面的明显优势让AutoDL成为目前炙手可热的重要研究方向。本次AutoSpeech挑战赛，希望有更多自动机器学习和智能语音的研究者和从业者参与，探索在语音相关的任务中更好的自动化解决方案，共同推动AutoML在语音领域的发展。

关于比赛

挑战赛主办方为本次AutoSpeech挑战赛准备了15个语音分类数据集，其中包括 5个离线公共数据集（用于选手开发和训练自己的AutoSpeech程序）、5个线上公共数据集（用于盲测，选手无法获得数据集任何信息）、5个私有数据集（用于盲测，选手无法获得数据集任何信息）。比赛平台将提供统一配置的GPU服务器进行相同环境相同计算资源的测试，并设定每个评测数据集的运行时长。选手也可使用自行训练的预训练模型。

每个数据集来自五个不同的语音分类领域之一，包括：说话人识别，情感识别，口音识别，语种识别和音乐流派分类。每个数据集大约包含几百到几千条语音的训练数据，且都是多分类任务（最多100分类）。所有音频数据都以16kHz的采样速率转换为单通道16位流，并用python的librosa读入后转储为pickle格式（向量列表包含一个数据集中的所有训练或测试音频）。

注意，数据集的每条样本长度可能不同。

数据集由内容文件、标签文件和元信息文件组成，其中内容文件和标签文件分为训练部分和测试部分：内容文件（{train，test}.pkl）包含音频的样本，其格式为向量列表。

赛事挑战

本次全球首次自动语音竞赛，重点针对语音分类任务，参赛选手将面临如下挑战:

-如何在语音数据中自动发现各种语义或非语义信息？

-如何为不同的语音任务自动提取有用特征？

-如何自动处理不同长度的语音数据？

-如何自动设计有效的神经网络结构？

-如何构建和自动调整预先训练的模型？

同时，参赛选手需考虑：

-如何自动高效地选择恰当的机器学习模型与超参数？

-如何提高解决方案的通用性？即如何保证解决方案在未知任务中的适用性？

-如何控制计算和内存成本？

赛程时间

北京时间（UTC+8）

2019年9月16日16:59：反馈阶段的开始，练习数据集的发布。参赛选手可以开始提交代码并在排行榜中获得即时反馈。

2019年10月07日23:59：参赛选手真实身份验证

2019年10月14日23:59：反馈阶段结束。

2019年10月15日00:00：检查阶段开始。

2019年10月18日19:59：检查阶段结束。

2019年10月18日20:00：最终阶段开始。

2019年10月20日20:00：重新提交截止日期。

2019年10月22日20:00：最终阶段结束。

请注意CODALAB平台使用UTC时间格式，以免错过比赛每个阶段的时间点。

赛事规则

本次挑战赛分为三个阶段（反馈阶段、检查阶段和最终阶段），首先参赛选手通过下载五个练习数据集，离线开发自己的AutoSpeech程序。然后进入反馈阶段，参赛者将自己的AutoSpeech程序代码上传到平台上，并通过在另外五个验证数据集测试，得到其性能的即时反馈。反馈阶段结束后，将进入检查阶段，参赛选手只允许在私有数据集上提交一次代码，以便进行调试。此时，参赛选手将无法阅读详细的日志，但是他们能够看到他们的代码是否报告错误。最终阶段，参赛选手的AutoSpeech程序在五个测试数据集上进行评估。最终阶段的排名将决定获胜者。

赛事奖励

第一名: $2000

第二名: $1500

第三名: $500

AutoML历届赛事

- First AutoML Challenge

- AutoML@PAKDD2018

- AutoML@NeurIPS2018

- AutoML@PAKDD2019

- AutoML@KDDCUP2019

- AutoCV@IJCNN2019

- AutoCV2@ECML PKDD2019

- AutoNLP@WAIC2019

对AutoSpeech2019挑战赛感兴趣的朋友，可以点击"阅读原文"查看官网详细信息，参与挑战赛。

登录查看更多

相关内容

数据集

关注 88

数据集，又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。
Data set（或dataset）是一个数据的集合，通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量，如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数，该数据集的数据可能包括一个或多个成员。

【NeurIPS2020提交论文】通用表示Transformer层的小样本图像分类

专知会员服务

59+阅读 · 2020年6月29日

最新《知识蒸馏》2020综述论文，20页pdf，悉尼大学

专知会员服务

158+阅读 · 2020年6月14日

最新《自动微分手册》77页pdf

专知会员服务

103+阅读 · 2020年6月6日

【微软】深度学习概述，65页ppt，A gentle introduction to Deep Learning

专知会员服务

66+阅读 · 2020年5月17日