AI Challenger 2018 以及数据竞赛对于求职和工作的意义

2018 年 9 月 24 日 AINLP

之前写过一篇《AI Challenger 2017 奇遇记》，记录了去年参加 AI Challenger 英中机器文本翻译比赛和英中机器同声传译比赛的过程，得到了一些反馈，特别是一些同学私下留言希望共享语料做科研用，但是限于去年比赛AI Challenger官方的约定，无法私下分享。不过好消息是，AI Challenger 2018 新赛季已经于8月29号启动，总奖金高达300万人民币，单个赛道冠军奖金最高到40万人民币。新赛季英中机器翻译文本大赛继续，提供了一批新的语料，中英双语句对规模大致到了1千3百万句对的水平，真的很赞。

我之前没有参加这类数据竞赛的经验，去年因为做 AIpatent专利机器翻译产品的缘故，参加了 AI Challenger 2017 两个与机器翻译相关的赛道，并且侥幸进了英中机器同声传译比赛的 Top 5，过程中最大的收获其实是 follow 了一轮最新的神经网络机器翻译模型和试用了一些相关的NMT开源工具，另外也跟踪了机器翻译相关的论文，了解了当前机器翻译的进展情况，这些对于我的工作还是有相当帮助的。

10年前读研的时候，没有MOOC，没有Kaggle，也没有这么多开源的深度学习平台和工具，有时候不得不感慨，对于搞数据挖掘的同学来说，这是最好的时代。对于还在校学习的同学，如果实验室的任务不重，强烈建议参加类似 AI Challenger, Kaggle 这样的比赛，这可能是除了实习之外，又一个很好的积累实战经验的方法之一。在 NLPJob ，我们已经发现有一些招聘方加了一条加分项，例如：有Kaggle比赛获奖或者其他竞赛获奖的优先。而类似的，我们也发现很多同学的简历中参加Kaggle, 天池大数据等竞赛的经历逐渐成了标配。面向校招，在校同学缺乏实战经验，如果又没有一些很好的实验室项目或者实习经历作为筹码，那么参加这类比赛不失为一个很好的简历补充方式。

以下选自 AI Challenger 2018 的相关官方介绍，其中五大主赛道有三个与自然语言处理相关，可见NLP是多么的难。

在首届大赛成功举办的基础上，AI Challenger 2018 由创新工场、搜狗、美团点评、美图联合主办，引入更多企业、大学、政府机构，为人工智能领域的科技人才带来十余个全新的高质量数据集以及相关的兼具科研、产业应用、社会意义的竞赛，并将整体奖金规模提升至300余万人民币。今年的大赛主题是“用AI挑战真实世界的问题”，数据集和竞赛如下：

主赛道

观点型问题阅读理解竞赛：机器阅读理解是让机器读懂人类语言、和人类更好交流互动的重要领域。此技术可广泛应用于智能搜索、智能问答、智能客服、智能音箱、语音控制等场景，用AI实现基于文字、语音的人机智能互动。数据集包含30万问题、篇章与候选答案，是全球难度最大的中文观点型问题机器阅读理解数据集。

细粒度用户评论情感分析竞赛：在线评论的细粒度情感分析对于深刻理解商家和用户、挖掘用户情感等方面有至关重要的价值，并且在互联网行业有极其广泛的应用，主要用于个性化推荐、智能搜索、产品反馈、业务安全等。数据集包含15万条餐饮用户评论、6大类20个细粒度要素标签，为业界最大。

英中文本机器翻译竞赛：机器翻译正越来越成为人们跨越语言障碍的重要工具，应用于各种领域。数据集在2017年数据集的基础上，总量达到1300万句对，为业界最大；且其中具有上下文情景的中英双语数据达到300万句对，为机器翻译的研究提供了更多探索空间

短视频实时分类竞赛：近几年发展极快的短视频行业具有明显的娱乐性和流行性，深受人们喜爱；基于短视频机器分类的技术还可以广泛用于视频内容分析、编辑与生产，监控、安防等领域。数据集包含20万条短视频、涵盖63类流行元素，为业内首个多标签短视频分类数据集。

无人驾驶视觉感知竞赛：自动驾驶技术即将改变我们的出行和生活方式。本次大赛的自动驾驶竞赛采用了UC Berkeley DeepDrive（BDD）2018年最新发布的BDD 100K数据集，这是全世界最庞大、最复杂的自动驾驶数据集，包含原始图片1.2亿张、标注图片10万张，涵盖多样天气和昼夜光照条件。

实验赛道

天气预报竞赛：气象要素的变化深刻影响着人类生活的方方面面。我们带来北京气象要素数据集，包含10个站点、3年多逐小时历史“观测”和“睿图”资料，探索以AI提高天气预报的准确性。

农作物病害检测竞赛：2016年农作物病害造成的直接损失占我国农业生产总值的8.48%。我们发起世界上首个农作物病害检测竞赛，标注图片50,000张、包含10种植物的27种病害，探索“AI植物医生”。

眼底水肿病变区域自动分割竞赛：我们发起国内首个眼底病变医学图像检测竞赛，建立了目前最大的眼底病变数据集，包含由专业眼科医生标注了三种类型水肿的、各含128张图片的100个OCT体数据。

商品实例分割迁移学习竞赛：以3D虚拟图像训练机器“认识”真实世界的物品，能极大降低标注成本、也是新兴研究热点。数据集包含不同场景的100个类日常生活用品的30,000张虚拟图片和9,000张真实照片。

零样本学习竞赛：受人类学习能力的启发，零样本学习希望借助辅助知识学习从未见过的新概念。本此竞赛是首个国际性零样本学习竞赛，数据集包含78,017张图片、230个类别、359种属性。

到目前为止，AI Challenger 官方已经提供了多个赛道的baseline和评估脚本，相关代码可以从github获取：https://github.com/AIChallenger/AI_Challenger_2018。参加这些赛道的比赛，即使一开始没有什么思路，也可以从这些baseline中学到很多东西。当然，打比赛是需要经验积累的，所以最后还是一个建议，对于在校的同学，如果时间充足（我觉得你们能利用的时间远多于工作的同学），尽量参与这些比赛；对于已经工作的同学，或者刚刚参加工作的同学，如果有兴趣有时间，参加比赛当然也没什么问题，我能了解到的是，一些已经工作的同学通过MOOC课程和这类比赛积攒经验转行到算法研发相关职位的。

如果作为求职者，或者作为招聘方，有相关的经验、故事分享，欢迎留言。最后欢迎关注我们的公众号：