2021人工智能竞赛白皮书!大牛云集的数字化练兵场和人才挖掘器

2022 年 4 月 18 日 THU数据派


  
  
    
来源:中国人工智能产业发展联盟
  
  
    

  本文为约12056,建议阅读12分钟

本文介绍 了《2021人工智能竞赛白皮书》。该报告分析了全球市场人工智能竞赛发展趋势,提出了对人工智能竞赛推动前沿技术落地的创新价值思考,并在业界开源优质人工智能竞赛运营方法论与最佳实践。


人工智能竞赛,数字经济的重要推动方式


数字科技正逐渐渗透到经济、商业、社会生活方式等方方面面,人们对于数据智能时代的来临充满了期待。然而,从现阶段的发展来看,我们距离真正的大数据时代仍有距离,各行各业的数字化转型进程未能如期落地。


数据的力量究竟该如何激发?近期,《2021人工智能竞赛白皮书》,分析了全球市场人工智能竞赛发展趋势,提出了对人工智能竞赛推动前沿技术落地的创新价值思考,并在业界开源优质人工智能竞赛运营方法论与最佳实践。


01. 数字经济的重要推手


人工智能竞赛是人工智能技术创新、应用发展的重要推动方式,受到各国政府高度重视。在国家层面,人工智能竞赛助力数字经济创新发展,突破重点技术瓶颈,推动人工智能产业高质量发展。2017 年 7 月,国务院印发《新一代人工智能发展规划的通知》,人工智能正式上升至国家战略层面,此后各类关于加快推进数据应用的政策相继出台。


可以看到,在国家宏观政策的大力推进和坚实支持下,大数据、云计算以及人工智技术的不断迭代和成熟正在催生日渐规模化、网络化和生态化的内生驱动的生态经济体其基础都在于借助算法和算力实现对数据价值的洞察。人工智能竞赛活动是人工智能技术创新、产业应用实践、赋能数字经济改革创新的重要方法。通过组织各类人工智能竞赛活动可汇聚各方技术力量,共同研究突破关键技术瓶颈,解决人工智能技术应用落地难点,并提升公众对人工智能技术的认知。


当前,全球多个国家发布人工智能国家战略,并在战略中指明应加强人工智能竞赛、合作研讨,实现本国人工智能技术的重大突破,并通过竞赛方式促进人工智能解决方案的开发,恢复本国经济增长。部分国家政府部门牵头组织竞赛,成果解决人工智能相关的科学和工程问题。


可以看到,以人工智能竞赛作为载体,以问题为导向,以人才为抓手,汇聚人工智能领域的各界科技创新力量和智慧,在共同推动人工智能 + 产业发展,加快算法产业化进程中起到重要作用。人工智能竞赛作为人工智能赋能数字经济改革创新的重要手段和窗口,也越来越受到各国的高度重视。


我国各省、市贯彻国家创新驱动战略,结合各地人工智能产业特色,举办各类人工智能创新、创业大赛,推动人工智能技术在各行各业的应用创新及成果转化,汇聚人工智能专业人才,促进地方人工智能产业发展。多地举办面向不同人群的人工智能竞赛,覆盖从学生教育、专业技术人员,到行业专家的不同类型竞赛活动,既促进人工智能技术的普及,又面向具有应用价值的场景,探寻技术解决方案。


在“大众创业、万众创新”的号召下,在政府资金、政策和转型决心的支持下,政务部门在大力倡导政务管理数据化、智能化的同时,也成为了有序开放优质公共数据资源、释放公共数据红利的引领者,为建设数据创新生态建设提供着政策支撑和资源支持。


如何借助数据科学建设智慧城市,是政务机构面对的重要问题。政务部门的数据积累具有数量更大、来源更多、质量更好、纬度更广等特征,其应用领域遍布城市管理的方方面面。为了探索数据科学在城市管理中的应用可能性,政务机构较为偏好开放性的产品方案赛题。具有明显的行业标签,如教育局、交通局、气象局等,赛题应用场景多与其自身行业标签一致;而没有明显行业标签的政务机构,如人民政府,其赛题场景则非常广泛。


政务部门类赛事主办方的赛题场景分布和技术类型分布

在各类人工智能竞赛活动中,赛事汇聚产学研各领域专家,实现以问题为导向的产学研协同创新。通过举办选拨各行业优秀的人工智能创新应用方案,加速形成各细分领域的人工智能应用共识和标准。


不同发展周期的前沿技术在各行业场景中的应用分布

伴随着技术水平的日趋成熟,越来越多的行业开始尝试融入信息技术,技术落地也成为数字化创新的首要目标。组织机构希望加入数字化转型的趋势性浪潮,然而,数字化却面临着诸如抗拒改变的文化氛围、有限的分享和协作、业务尚未准备就绪、人才短缺、现有实践不适宜进行数字化、以及成本投入巨大等多方面的挑战。


对绝大多数组织机构而言,推进数据科学项目耗时漫长、所费不赀。从集思广益提出创意,到通过审慎评估形成切实可行的方案,继而投入大量尖端人力进行算法开发,成果新鲜出炉后投入现实场 景加以应用验证,再到确定其效果与回报后推行全面部署——每 一个环节都会牵涉到大量资源的协调投放与各方利益诉求的平衡,更少不了富有预瞻性的战略判断、科学专业的运营管理、以进而可以看出,在行业层面,人工智能竞赛在实现以问题为导向的产学研协同创新,选拨各行业优秀的人工智能创新应用方案,以及加速形成各细分领域的人工智能应用共识和标准方面都能够发挥重要作用。及发现误差后能够进行敏捷的优化调整。


因此,人工智能竞赛为数据驱动的技术创新落地和数字化转型升级提供了充沛的生产力。例如,近年来知名度提升的国际蛋白质结构预测竞赛(CASP)由马里兰大学的 John Moult 教授和加州大学戴维斯分校的 Krzysztof Fidelis 教授联合创建的国际性比赛,旨在评估、促进和确认最佳的蛋白质结构预测手段。2018 年,DeepMind 开发的第一代 AlphaFold 首次参加 CASP 并且拔得头筹。而 2020 年,新一代的 AlphaFold2 在 CASP 中的表现更为惊艳,其评估结果比 2018 年提升了,被媒体誉为“解决生物学50 年来的重大挑战”。


2006-2020 年 CASP 比赛中最佳蛋白折叠预测系统的评分表现

进而可以看出,在行业层面,人工智能竞赛在实现以问题为导向的产学研协同创新,选拨各行业优秀的人工智能创新应用方案,以及加速形成各细分领域的人工智能应用共识和标准方面都能够发挥重要作用。


02. 敏捷的数据探索与应用创新方式


企业举办人工智能竞赛的核心诉求,是挖掘潜在的创新方向和应用场景。通过人工智能竞赛的举办,企业打造出了充分融合数据、算法、人才、算力等各项创新要素的标杆案例,以赛题要求切入,让创新探索过程更加具象、创新探索结果更加明确,为企业的数字化投入建立信心。


同时,人工智能竞赛作为数据研发的缩影,也成为了企业积累数 据科学能力的实验室。在贴近真实业务场景的竞赛环境下,为可复用的数据科学方法论指导赛事设计与运营,厘清数字化转型的目标与路径,把握数据科学项目的生命周期,更加有的放矢地制定策略。


分析 2014 年至今国内的 400 场人工智能竞赛发现,企业在所有人工智能竞赛主办方中占比高达 67%,金融、通信、文娱传媒、交通运输和电子商务是发起人工智能竞赛数量最多的五大行业领域,合计占比高达 75%。企业最为偏好结构化数据挖掘类赛题(47.4%),其次是计算机视觉(21.6%)。具体来看,金融行业赛事主办方的赛题场景相对发散,除金融关联领域外,亦涉及电子商务、交通出行、农林养殖业、新零售等“金融 +”场景。通信行业在 5G 技术的商用趋势与产业互联的影响下,还会关注安防、交通、旅游、人文、社会治理、及文娱传媒等“万物互联”和“智慧城市”等相关领域。


▲企业类赛事主办方的赛题场景分布和技术类型分布

人工智能竞赛连接起的每一项要素都在数字化创新中扮演着不可或缺的重要角色:云计算资源和数据科学协同开发工具是基础设施,人才和 AI 技术是生产力,数据是基础生产资料,环环相扣的创新效果通过以赛题承载的应用场景得以直观呈现。以人工智能竞赛为中轴,汇聚起更多的人才、组织起更频繁的跨学科领域交流、涉足更广泛的技术面,积累更全面更优质的数据,从而带来更加敏捷高效的创新探索和性能突出的创新成果。


▲兼具性价比、敏捷性、持续性的人工智能竞赛带来数字化价值指数级增长的飞轮效应

各类组织机构不懈探索更简单、更便捷的数字化战略,根据Gartner 在 2017 年发布的数字化战略调研报告,在众多数字化创新手段中,人工智能竞赛依然具有相对较高的成功率。因为在确保有 100% 的信心推动数据科学项目成功着陆之前,人工智能竞赛在性价比、敏捷性和持续性等方面表现突出,不仅有利于低成本的发展策略试验和排错,亦能充分积累数据科学实战经验。


▲数字化创新方法投入对比


性价比:人工智能竞赛创造了化繁为简的环境条件,在更加紧凑的周期内,能够直接感受推动数据科学创新和技术落地的步骤与方法。无论是自行成立数字化研发中心,还是与产业同行进行战略合作,往往首先需要在 IT 基础设施上有巨大投入,而在竞赛环境里,赛事主办方往往只需要承担一个业务负责人的角色,与竞赛运营平台沟通其创新诉求,配合轻量级的付出即能够获得赛事运营团队和数据科学研发人员的专业服务与支持。


敏捷性:传统的数据科学项目受限于团队人数和团队精力,信息反馈也往往需要较长的周期。而人工智能竞赛由于其特殊的赛马机制,模型迭代的速度和对于数据的利用效率往往远高于常规的数据科学项目。作为缺乏前车之鉴的创新之举,推进数据科学项目总少不了反复的试验和排错,传统方式下的每一次试验往往因投入巨大可能导致决策者投鼠忌器。但籍由人工智能竞赛以更经济的投入换取更快速的反馈,便为多轮连续验证创造了空间,实现了敏捷的创新。


持续性:以人工智能竞赛为契机,加强企业、高校和科研机构、 政务部门之间广泛深入的合作,促进多方资源的整合与联通,既 。是促进产教融合的数据科学人才培养模式变革的创新之举,也为研协同打通了渠道、树立了标杆,为可持续的技术创新应用探索提供了基础设施平台,市场价值必将迎来指数型增长。


▲不同数字化创新方式的成本、耗时和成功率对比

▲各类赛事主办方的数字化创新需求与难点通过人工智能竞赛得到了满足


03. 高校学科交叉与产研融合的良药


在国家相关政策的鼓励和推动下,越来越多的高校开始进行数据科学的学科建设和人才培养。高校学科建设需要持续的资金投入和资源配套,数据相关专业仍缺乏成熟的学科建设经验,学生则需要充足的优质数据、功能完备的工具平台和贴近实战的场景来进行实践——这一系列问题都是困扰着高校的现实困难。


人工智能竞赛作为高校推进大数据相关学科建设的重要手段,将教学、科研、实训深度结合,以赛题的形式发布,广泛吸引校内的人才参与竞争和交流学习,探索将理论知识转化为实践应用,帮助人才在竞赛场景中以赛促学,帮助人才认识理论学习、基础知识的意义与重要性。


在此背景下,高校围绕技术热点、学科建设以及创新应用三个方向进行赛题的策划,广泛涉及社会服务、工业制造、旅游、生物科技、网络安全和医疗健康等多个行业,以加强学生的理论和技能在多元场景下的应用能力。


▲高校类赛事主办方的赛题场景分布和技术类型分布

由于人工智能赛事涉及的赛道非常广泛,除了计算机相关的专业外,还可能需要材料科学、电气工程、自动化工程、通信工程、数学等学科的专业知识,甚至还有部分赛道需要航天工程、测绘与地理、物理学、医学、人文与社会科学等与计算机科学不太相关的学科背景。对于拥有多领域人才的高校和科研机构而言,涉及到多领域的人工智能赛事对于不同学科的交流以及交叉学科融合研究与教学都有极大的促进作用。


▲人工智能竞赛对高校的价值总结

科研机构是技术研究与探索的引领者,也是数字化转型的推动者。基础研究、应用研究和开发研究是科研系统中三个紧密相连的重要环节,三者协调统一的发展才能够真正实现科研成果的价值转化。


在人工智能领域,人工智能竞赛为这个过程的进化创造了条件,集中了数据、人才等必要的基础要素,提供了跨学科领域的交流环境。同时,前沿科研的实用价值通过竞赛被释放、被感知,也获得了持续的社会关注和资源支持。


科研机构的赛题技术方向和应用场景富有前瞻性,集中于和自身行业背景属性相同的场景中,地质、水利、气象、传媒是较为常见的赛题场景。


▲科研机构类赛事主办方的赛题场景分布和技术类型分布


04. 如何组织一场人工智能竞赛


作为整合 AI 技术和应用场景的枢纽,连接数据人才和业务问题的桥梁,优质的人工智能竞赛既要能够激发数据人才的能动性和生产力, 又要满足赛事主办方的主要诉求。前者需要打造良好的参赛体验, 后者又须培养扎实的数据科学运营能力,即优质的人工智能竞赛应同时满足竞赛体验的顺畅度和竞赛成果的有效性。


竞赛体验的顺畅度以系统化、专业化的运营手段严格把控赛事质量,以易用的工具、合理的计算资源支撑赛事功能,保障各个环节的平稳推进和过渡,激励参赛选手在公平、公正的竞赛环境下充分发挥能动性和专业实力,高效创造出性能优越的竞赛成果。竞赛成果的有效性在充分理解赛事主办方业务特征与办赛诉求的基础上,通过赛题最大化呈现技术在具体应用场景下的价值,将人工智能竞赛打造成为高度整合“数据 + 算力 + 算法 + 应用场景+ 人才”的标杆, 为数字化创新提供借鉴与思路。


▲优质数据科学竞赛的关键要素

为了快捷、高效、准确地寻求数据创新的切入点和赛题方向,竞赛运营平台在日常工作中需要注重对各行业、各领域的洞察积累和研究分析,挖掘各行业的业务特征、发展趋势和价值生态。在面对具体的人工智能竞赛项目时,结合赛事主办方的实际业务价值和实现风险,快速敏捷地构建数据创新解决建议。


▲和鲸数据创新解决建议,以快消行业的线上营销网红渠道场景为例

数据甄选不仅要做到能够从数据源头上支撑赛题的可解性,配合赛事主办方积累数据采集和管理方面的能力。竞赛运营平台需要积累国内外的开放数据资源,形成丰富的数据案例库,以此为基准帮助赛事主办方进行数据采集和管理。


在实际竞赛中,要第一时间面向赛事主办方收集数据样例,深入了解数据采样过程、方法和数据的业务特色,结合赛题的应用场景和技术类型,从字段的完整性、关联性等多个方面系统性地检查数据集质量。过小的数据量可能不足以支撑赛题的解答,最终开发出的算法模型性能有限,而过大的数据量需要占用巨大的储存空间、消耗海量的计算资源,同时也会使得参赛选手的分析开发工作耗时日久, 从而违背了人工智能竞赛经济、高效、敏捷的初衷。


竞赛成果投入真实场景的应用,会面临种种现实约束条件,需要结合数据实际情况预判可能出现的质量风险,并采取合理的手段甄选质量优良、数量合理的数据,提出改善数据质量、或对数据进行加工的方法建议。


赛事的竞赛数据集由四个部分组成:作为模型开发输入的训练集数据、作为模型开发输出的训练集标签、作为模型测试输入的测试集数据(无标签样本)、作为评估模型的真实测试集标签。


目前普遍的数据集切分方法是按一定比例进行随机切分,这样的切分方式表面看似公允,但没有考虑数据分布特征具有的不确定性。举例来说,如果训练集和测试集过于相似,模型在训练集上的过拟合表现则无法在测试集上被验证发现,最终得分虚高;而如果训练集和测试集的相似度低,则基于训练集数据特征训练出的模型在测试集上则可能有不同的表现。


为了避免随机切分带来的潜在问题, 对抗验证(Adversarial Validation)不失为行之有效的办法。


设计科学的评价机制,能够有效评估参赛选手的真实水平和竞赛成果的价值,帮助赛事主办方对于人工智能竞赛的意义有更加直观的感受,也能为数据科学研发的迭代指明方向。从参赛选手的视角出发,在其付出和能力得到客观评价的同时,更重要的是能够在清晰合理的评价反馈引导下更加高效地优化模型性能。


05. 人工智能竞赛生态版图与竞赛平台


人工智能竞赛是指在以真实业务问题为导向,聚合广泛的、跨学科的数据人才的参与,利用数据研发算法模型、探索解决方案的新型研发模式。2014 年至今,全球范围内由各行业企业、顶级学术会议和第三方数据科学平台发起的各类人工智能竞赛总量已突破 1000 余场。


其中,仅中国市场就已通过 12 个人工智能竞赛平台发布共计逾400 场人工智能竞赛,占比近半,且年均增长率高达 108.8%。236 家企业、政务部门、高校和科研机构作为赛事主办方参与其中 ;吸引约 36万支团队、120 万人次参赛;奖金规模合计高达2.8 亿元人民币,赛题覆盖金融、交通出行、安防、航空天文和生物科技等 33 个应用场景。


利用人工智能竞赛探索数字化创新与前沿技术的落地应用方向正在成为数据科学生态必不可缺的一环。通过对这 400 场人工智能竞赛的深入分析,我们试图从更全面、更深入的角度理解中国市场的人工智能竞赛生态。


▲人工智能竞赛生态版图

和鲸社区:和鲸社区(heywhale.com,原“科赛网” )是最早一批专注于AI 大数据竞赛的头部平台,也是国内最大的数据科学社区之一,以“connect people with data”的使命,注册用户超 20 万,辐射超过 100 万数据科学爱好者,累计运营 200 余场大规模人工智能竞赛,覆盖互联网、工业大数据、智能机器人、智慧金融、智慧城市、智能电网、智慧医疗、新能源汽车等领域。


阿里云天池:天池面向社会开放高质量脱敏数据集(阿里数据及第三方授权数据)和计算资源,吸引全球高水平人才创造优秀解决方案,有效帮助行业 / 政府解决业务痛点,并为企业招聘提供人才输送。作为中国产业 AI 排头兵,天池提供集品牌、生态、人才、算力为一体的数据智能解决方案,为产业创造价值。


2014 年至今,天池已成功运作 400 余场高规格数据类竞赛,覆盖全球 98 个国家和地区的 90 万数据开发者。天池平台上的竞赛课题以解决实际场景中的业务痛点为主,实战性和应用性强,场景覆盖数字政府、电商、金融、交通、物流、航空、工业、基因、电力、医疗多个领域,让 AI 普惠各行各业。近年,天池平台推出模型评估工具 TCC(TianChi Computing 的缩写),保障竞赛优胜模型质量的同时兼顾模型效率和数据安全,维护竞赛公平性并推动竞赛成果落地转化,2020 年天池在 TCC 的基础上推出业界首创的流评测机制,推动竞赛模型评估迈向新高度。


华为云大赛平台:华为云⼤赛平台,是华为公司⾯向全球开发者的创新⼤赛平台,致⼒于为想要改变世界的开发者们提供⼀个实践创新的梦想平台,⿎励更多开发者基于华为平台和能⼒进⾏产品与⽅案的创新与应用。主要赛事有:①编程和软件开发类赛事,使用华为敏捷开发DevCloud、鲲鹏、HiQ 等服务和产品,与全球编程爱好者一起探索编程与竞技的更高境界。


以赛促学,以赛促建,携手为生态建设搭建政企高校合作的桥梁。②华为云 AI 竞赛主要基于一站式 AI开发平台 ModelArts 进行参赛作品的开发、调试、提交及自动评分,其中评分测试集不可见的方式最大化保证比赛客观公正。③网络AI 算法类赛事,使用华为网络人工智能 (NAIE) 的端到端数据处理、特征工程、AI 模型训练平台,集成 200+ 网络电信领域 API 接口( 含自研接口如 Automl 等 ),与 AI 爱好者一起探索机器学习的算法挑战。


特色:基于华为全栈 AI 能力,开放华为真实业务数据集;赛事专属 AI 训练营赋能体系;云联结政府、企业多领域办赛,提供优秀人才桥接。


DataFountain:DataFountain(简称“DF”)是国内领先的数据智能协同创新平台,为 17 万 + 用户提供了专业的大数据竞赛、人工智能数据集、开源分享社区、建模工作台、案例实训等服务。依托创新技术与国家级赛事服务能力,自 2015 年成立以来已举办 280 余场由政府、企事业单位、科研院所主办的大型赛事,是 CCF 指定竞赛平台。


DF 平台鼓励选手赛中赛后得当开源,坚持严格反作弊,关注能力提升与实践应用,为参赛选手提供了友好、公平、高成长的竞赛环境。DF 平台打造了国内多个经典赛事 IP,其中 CCF BDCI ⼤赛已成为国内最具生命力、参赛规模最大的大数据联赛及圈内聚首盛会。


DataCastle:DC 竞赛是专业的数据科学竞赛平台,基于自主研发的 DCLab 在线编程工具,主打算法建模与创新应用两种竞赛模式,聚焦大数据与人工智能,不断开拓工业互联网、物联网、区块链、网络安全、工具开发等领域。DC 竞赛利用竞赛生态,赋能政府政务数据开放、助力政府挖掘并招募优质项目;集群智为企业优化算法、精准招聘数据科学领域人才。迄今,DC 竞赛已汇集了 15 万数据科学开发者,累计上线赛题 264 道、参赛人次 28 万、作品提交 36 万次、奖金发放 7100 余万,已服务国家部委、军委、地方政府 20 余家,企业上百家。此外,DC 竞赛还联合上海市教委,面向 K12 推出了“2020AI 算法擂台赛”,不断尝试并延伸用户群体。


Kaggle(国外):人工智能竞赛发展的里程碑绕不开 Kaggle,除了国际性的市场影响力和知名度外,Kaggle 更是为人工智能竞赛的平台化发展奠定了模式的基础。创立于 2010 年的 Kaggle 是目前全球最大的人工智能技术分享社区和第三方人工智能竞赛平台,面向全球用户累计举办竞赛近 400 场(含练习赛和自营赛),社区活跃用户逾百万。各类赛事主办方基于不同的目标通过 Kaggle 发布与数据相关的难题,悬赏吸引全球的人工智能人才参与竞赛。


在发展初期,Kaggle 聚集了一大批数据科学与人工智能人才,凝聚 了 Your Machine Learning and Data Science Community 的社区文化,形成了讨论氛围浓厚的数据集、代码与技术分享社区,并在此基础上开始逐渐发展人工智能竞赛服务。围绕着数据科学与人工智能,Kaggle 做出了诸多努力和尝试,平台功能也日益完善,目前包含竞赛、数据集、开发工具三个子平台,配套论坛,课程与招聘服务三大模块,逐渐发展成为连接人才和应用场景双方共同致力于人工智能与数据科学创新探索的综合性社区平台。


在中国市场,越来越多的企业、高校、科研机构和政务部门开始意识到人工智能竞赛是进行品牌宣传、人才选拔、算法创新的一种高效形式,因此投身人工智能竞赛的姿态愈发积极。在此背景下,中国市场也顺势崛起了一批人工智能竞赛平台,传统科技巨头与深耕竞赛领域的公司,凭借在资源整合、场景挖掘、工具开发、成果封装,人才转化等方面差异化的专业服务能力和经验推动着中国人工智能竞赛的专业化发展,并开始探索区别于 Kaggle的中国特色发展道路。


06. 五大趋势与展望


1、奖金投入意愿攀升,参与规模稳增


人工智能竞赛的奖金水平和参赛规模从侧面反应了各行各业的数据科学投入力度和各类技术领域内的人才结构。自 2014 年以来, 无论是参赛人数还是总奖金池规模都呈现出较为显著着上涨趋势, 而人均奖金也呈同步上升态势。由此可见各行各业在人工智能竞赛中的投入热情和力度不断高涨。


具体来说,除了具有跨行业应用价值的赛题外,赛题场景的行业分布与奖金、参赛规模主要呈现如下趋势:交通出行、工业制造、医疗健康是目前人工智能竞赛中奖金最丰厚、规模最宏大的三个领域,可见其对于数字化创新价值的重视和期待。


电子商务、社会公共服务、文娱传媒等赛题场景因与大众个人生活息息相关,故而也往往具有较大的参赛规模。


安防、能源、气象等赛题场景因具有一定的知识门槛,因此存在奖金丰厚但参赛者寥寥的现象。


同时,不同技术类型赛题的难易程度和发展速度也与奖金水平正向相关:越高的奖金意味着技术难度越大,丰厚的激励有望推动 尖端人才投身前沿问题的解决。其中,计算机视觉类赛题的奖金水平一枝独秀,预计未来仍会有大量相关赛题涌现。而结构化数据挖掘类赛题则具有最广泛的受众面和最低的参与门槛,参赛规模庞大。


▲各行业赛题的奖金投入与参与规模

2、数据红利可期,数据投入姿态积极


人工智能竞赛的创新价值均以数据为基础,除了以丰厚的奖金投入来吸引优质人才的加入,越来越多的主办方也在数据安全与法规限定的范畴内不断加大竞赛数据的投入力度,为创新提供更充足的养料。


百度作为积极投身人工智能竞赛的先锋,已基于百度知道的真实问答文档建设了迄今为止规模最大的中文公开领域阅读理解数据 集 DuReader,并完成了对总量类型、问答实体和观点等信息维度的标注,弥补了现有主流问答语料库对于观点类问题覆盖不足的缺陷,首批发布的阅读理解数据集包含 20 万个问题、100 万份文档及 42 万个人工撰写的优质答案,并提供开源基线系统,从而为各行各业在自然语言处理领域的创新探索奠定了坚实基础。


由中科院打造的 CASIA-WebFace 数据集包含了 10575 名个人的494414 张图像,是训练人脸识别模型的重要素材。此外,在由百度主导的“智能问答”和“综艺节目精彩片段预测”两场人工智能竞赛中,百度联合汽车大师和爱奇艺分别提供了汽车大师平台上的 11 万条真实问答数据、以及总长约 1200 小时的1470 条爱奇艺电视综艺视频。这些数据对最终优质成果的诞生发挥了至关重要的作用。


携程将人工智能竞赛作为推动内外协同创新、解决实际业务问题的重要手段,其发布的赛题几乎覆盖了自身业务的核心内容,包括酒店销量概率预测、客户转化概率预测、航班延误预测、渠道销售能力预测等诸多方面。为了收获具备工业应用潜力的竞赛成果,在经过严格脱敏处理和采取充分的数据安全保障措施后,携程为竞赛导入了海量真实业务数据,其信息涵盖酒店基础数据、历史订单数据、价格波动数据、竞品排名数据、历史航班动态起降数据及航班延误影响因素相关数据等。


科研机构在日常研究工作中积累了大量数据,通过人工智能竞赛的开放式创新环境闭合的数据库在一定条件下进行开源,也无疑能够进一步促进这些数据的价值释放。率先将医疗大数据 Datathon 模 式 引 进 国 内 的 解 放 军 总 医 院, 在 2018 年 的Datathon 中就曾发布并应用了 2015-2017 年间在解放军总医院 急诊科就诊数据库,以其作为 Datathon 竞赛的基础资源,通过 跨学科、跨领域的交叉合作,真正推动了医疗大数据应用从理念到落地的探索。


政务数据广泛覆盖自然信息、城市建设、城市管理监察、服务与民生消费等丰富的维度,是极其重要的大数据资产,开拓政务数据的创新应用场景也成为了近年来各级政务部门的重要任务。越来越多的政务部门通过人工智能竞赛开源数据红利,探索创新机遇。举例来说,在由广西壮族自治区人民政府发起的全球数据智能大赛(2019)中,2015-2018 年间广西 81 县十余个维度的气象和早、晚稻产量数据,及降雨、温度、光照、温差等气象数据被用以构建智能气象预测系统和精准预测水稻产量。


3、教育投入与日俱增,数据人才能力跃升

高校是学科研究和人才培育重要机构,自 2015 年以来,全国各省市地方高校积极开设人工智能专业和数据科学与大数据技术专业。截至 2021 年 12 月,全国开设人工智能专业的高校为 231 所,全国开设数据科学与大数据技术专业的高校为 558 所。


与此同时,考虑到前沿技术与商业场景之间存在的认知偏差阻碍了数据科学价值的释放,教育部近年来积极推动交叉学科的建设和复合型人才的培养,要求“创新学科组织模式,打破传统学科之间的壁垒,加强学科协同交叉融合,构建协同共生的学科体系”。


而在数字化趋势下,日益完善的社会教育体系和不断催生的复合工作能力要求,继高等教育之后也催化了大批数据科学人才的诞生。人工智能竞赛日渐成为人才成长过程中进行理论实践和能力锻炼 的重要选择。另外一方面,根据剑桥大学发布的 2019 年 AI全景报告,中国的人工智能生态已经相对较为成熟,国家数据科学人才的流失率处于相对较低的水平且人才的增长率处于相对较为稳定的水平。


▲主要国家 AI 人才的发展流动情况

近年来,中国在人工智能研究领域加快发展,自 2014 年以来,中国在深度学习领域发表的论文数量开始领跑全球,这一趋势一直维持至今。同时,根据 LinkedIn 发布的 《全球 AI 领域人才报告》较之美国,中国 AI 人才拥有高学历及海外留学背景的人数占比更高,从侧面反应出人工智能竞赛的目标参赛人群整体供给质量较高,从供给层面为人工智能竞赛的价值保障奠定了良好基础。


▲中美 AI 领域专业人才最高学历分布


数据科学人才是数据驱动下技术创新和落地的抓手,人工智能竞赛因其面向不同人群的开放性和赛题内容及技术类型的丰富性,成为 了人才成长过程中重要的实践锻炼场景,提升了培养效率,而人才的不断涌现又为人工智能竞赛的规模化开展奠定了参与基础。通过和鲸调研发现,53.6% 的人工智能竞赛参与者具备硕士础。通过和鲸调研发现,53.6% 的人工智能竞赛参与者具备硕士及以上学历。人工智能竞赛和专业人才之间互相促进、彼此成就,为数据驱动的技术创新落地和产业转型升级提供了充沛的生产力。


4、应用场景不断扩散,标杆行业优势初显


人工智能竞赛自诞生以来,始终以数据科学落地场景的探索为主要优势特色,并对数据科学在不同场景下的应用能力和价值通过赛题进行验证和迭代。从 2014 年至今中国市场的 600 场人工智能竞赛的赛题可以看出,除了如推理问答、人脸识别等具有跨行业场景应用能力的赛题外,交通出行、金融、文娱传媒和工业制造是赛题场景涉及最多的四大行业。


5、商业数字化趋势渐强,有赖技术创新落地


根据麦肯锡全球研究院发布的 MGI 行业数字化指数报告,在产业数字化动态发展的过程中,完备的数字资产积累、充分的资本投入与研发、可持续的人才连接与协同推进了产业数字化程度的不断加深,进而带来了较高的平均利润增长率以及劳动增长率。而人工智能竞赛在中国市场的崛起并非是对国外先进模式的亦步亦趋, 而是在技术落地应用需求增长、云计算基础不断成熟、宏观政策支持、投资机构助推、媒体宣传引导、专业人才涌现等因素共力作用的必然结果。较为主动采用数字化战略的企业也能在后续发展中与竞争对手拉开差距。建立基于数据价值流动的生态系统,充分利用生态内不断升级的人才资源和技术资源赋能商业发展,已成为越来越多商 业领袖的共识。


人工智能竞赛聚集当下技术与数据应用中的难点寻求解决思路,不断缩短科研成果与落地应用之间的距离。我国的政务机构也在“大众创业、万众创新”的政策驱动下,开始意识到数据的力量,牵头组织了多场大型人工智能竞赛。从已有经验来看,人工智能竞赛是最佳的“数字化练兵场”、“数字化人才挖掘器”和“数字化生态构建器”。


—— END ——

登录查看更多
1

相关内容

【报告】2021人工智能竞赛白皮书(附PDF下载)
专知会员服务
49+阅读 · 2022年5月27日
《数据中心白皮书(2022年)》
专知会员服务
88+阅读 · 2022年4月24日
数字孪生城市白皮书(2021),47页pdf
专知会员服务
110+阅读 · 2021年12月24日
专知会员服务
85+阅读 · 2021年6月20日
专知会员服务
129+阅读 · 2021年6月18日
【腾讯IDC】数实共生:未来经济白皮书2021,81页pdf
专知会员服务
75+阅读 · 2021年1月24日
《AI新基建发展白皮书》,国家工信安全中心
专知会员服务
192+阅读 · 2021年1月23日
数字孪生城市白皮书(2021),47页pdf
专知
6+阅读 · 2021年12月24日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年9月30日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
17+阅读 · 2021年1月21日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
VIP会员
相关VIP内容
【报告】2021人工智能竞赛白皮书(附PDF下载)
专知会员服务
49+阅读 · 2022年5月27日
《数据中心白皮书(2022年)》
专知会员服务
88+阅读 · 2022年4月24日
数字孪生城市白皮书(2021),47页pdf
专知会员服务
110+阅读 · 2021年12月24日
专知会员服务
85+阅读 · 2021年6月20日
专知会员服务
129+阅读 · 2021年6月18日
【腾讯IDC】数实共生:未来经济白皮书2021,81页pdf
专知会员服务
75+阅读 · 2021年1月24日
《AI新基建发展白皮书》,国家工信安全中心
专知会员服务
192+阅读 · 2021年1月23日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年9月30日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员