除了Kaggle,这里还有一些高质量的数据科学竞赛平台

2019 年 4 月 16 日 机器之心

选自 towardsdatascience

者: Parul Pande

机器之心编译

参与:李诗萌、王淑婷

除了大名鼎鼎的 kaggle,数据科学家可以参加的数据竞赛平台其实还蛮多的。有些比赛平台不仅提供比赛,还让你有机会自己创办比赛。有些比赛由公司赞助,有些由政府机构赞助。参加这些比赛不仅能让你的能力获得认可,还可以获得一些不菲的奖金呢~



在听了上百节慕课(MOOC)、看了上千本书和笔记、聆听了上百万人对数据科学的看法后,你会做什么呢?你要开始应用这些概念啦。应用机器学习概念的唯一方法就是亲自动手。你可以在感兴趣的领域选一些现实问题,也可以参加编程马拉松(Hackathon)和机器学习竞赛。


数据科学比赛不仅是算法的应用。从本质上讲算法是一种工具,任何人都可以写几行代码来使用它。参加这些比赛的主要原因是它们能提供很好的学习机会。当然,竞赛中的问题和现实问题不一定一样,但这些平台可以让你将学到的知识付诸实践,还能让你了解自己和他人的差距。


参加数据科学比赛的好处


参加这些比赛可以说是有百利而无一害。它里里外外的好处有很多,比如:


  • 这是一个学习的好机会;

  • 可以接触当前最佳的方法和数据集;

  • 可以和志同道合的人交往,团队合作很棒的地方在于可以从不同角度思考问题;

  • 可以向世界展现你的才华,从而获得更好的就职机会;

  • 参与并了解自己在排行榜上的表现也很好玩;

  • 还有奖品作为额外福利,但不应把它作为唯一的标准。


2009 年 9 月 18 日,BellKor Pragmatic Chaos 团队在决赛中获胜,正式赢得 NetFlix 的比赛。


Kaggle 是很有名的数据科学竞赛平台。这个在线社区有 10 万多注册用户,这些用户有新手也有专家。但除了 Kaggle,还有一些其它值得了解和研究的数据挖掘竞赛平台。


Driven Data



Driven Data 举办数据科学竞赛的目的是要建设更美好的世界,用最先进的预测模型来解决世界上最棘手的问题。Driven Data 在国际发展、医疗、教育、研究和保护以及公共服务等领域举办数据科学竞赛,以谋求社会利益。你既可以参加平台上的竞赛,也可以通过该平台举办自己的竞赛。


该网站有专门的示例项目部分,这部分以案例研究的形式展示了一些成功的项目。Driven Data 列出的数据集都与一些非营利组织相关,数据从野生动物保护到公共卫生都有。因此,如果你想将自己的技能应用于实际问题,那这个平台简直就是为你而建的。


  • Driven Data:https://www.drivendata.org/

  • 参加比赛:https://www.drivendata.org/competitions/

  • 组织比赛:https://www.drivendata.org/partners/

  • 示例项目:http://drivendata.co/projects.html


CrowdANALYTIX



CrowdANALYTIX 是一个众包分析平台,该平台将商业上的挑战和问题转换成竞赛题目。CroudANALYTIX 社区通过合作与竞争的方式来构建和优化 AI、ML、NLP 和 深度学习算法。该平台还有社区博客,其中有包括访谈和参考资料在内的大量资源。


  • CrowdANALYTIX:https://www.crowdanalytix.com/community

  • Community Blog:https://www.crowdanalytix.com/jq/communityBlog/listBlog.html


Innocentive



InnoCentive 的重点在生命科学上,但也有其它有趣的竞赛主题。参赛者可以参与解决一些世界上最紧迫的问题——从促进家用净水供应到旨在吸引和杀死携带疟疾的蚊子的被动式太阳能装置。挑战是真正的问题,它需要持续集中注意力、批判性思维、研究、创造力以及综合性知识。开发出解决方案就是最大的奖励,在这个过程中还可以进行无与伦比的脑力锻炼。


InnoCentive:https://www.innocentive.com/our-solvers/


TunedIT



TuneIT 最初是华沙大学(University of Warsaw)的一个理科博士项目,其目的是帮助数据挖掘科学家进行可重复的实验并轻松评估数据驱动算法。后来出于教育、科研以及商业目的,补充了用于举办数据竞赛的 TunedIT Challenges 平台。


  • TunedIT:http://tunedit.org/

  • TunedIT Challenges:http://tunedit.org/challenges


Codalab



Codalab 是一个基于 web 端的开源平台,平台上的研究人员、开发人员以及数据科学家互相合作,以推进使用机器学习和高级计算的研究领域的发展。CodaLab 通过其在线社区解决数据导向研究领域的很多常见问题,人们可以在该社区共享 worksheets 并参与竞赛。你既可以参加现有竞赛,也可以举办新的竞赛。


CodaLab:https://competitions.codalab.org/


Analytics Vidhya



Analytics Vidhya 除了为分析和数据科学专业人士提供了基于社区的知识门户,还提供了大量数据科学的学习资源。该平台还会举办编程马拉松,通过竞赛形式解决真实的行业问题。你既可以参加竞赛,也可以赞助编程马拉松。大多数在 Analytics Vidhya 上组织编程马拉松的公司,都会给表现优异的参赛者提供很好的工作机会。


Analytics Vidhya:https://datahack.analyticsvidhya.com/?utm_source=main-logo


CrowdAI



数据科学挑战平台 crowdAI 每年都会举办很多开放的数据科学挑战赛。这些比赛覆盖了图像分类、文本识别、强化学习、对抗攻击、图像分割、资源配置优化等多个领域。2017 年亚马逊和英伟达赞助的竞赛叫做「Learning to Run」,奖金高达 10 万多美元。


  • crowdAI:https://www.crowdai.org/challenges

  • Learning to Run:https://www.crowdai.org/challenges/nips-2017-learning-to-run


Numerai



Numerai 是由众多数据科学家建立的、AI 运营的众包对冲基金平台。该平台每周都会举办数据科学竞赛以支持真正的对冲基金。Numerai 每周给参赛者提供加密数据,然后参赛者们提交其预测值。之后 Numerai 会根据所有提交结果构建元模型,并进行投资。


数据科学家们提交自己的预测值来换取一些 Numeraire,这是一种以太坊区块链上的加密货币。


Numerai:https://numer.ai/rounds


天池



天池是阿里云创建的数据竞赛平台,它和 Kaggle 很像。该社区中有成千上万互相合作的数据科学家,他们还可以在该平台中联系全球的企业和政府,以解决各行业中最棘手的问题。


天池:https://tianchi.aliyun.com/competition/gameList/activeList


DataScienceChallenge



Data Science Challenges 是由国防科学技术实验室(Dstl)以及包括政府科学办公室(Government Office for Science)、SIS 和 MI5 在内的许多英国政府部门共同赞助举办的,旨在鼓励数据科学领域的优秀人才解决现实问题。该平台提供的两个挑战赛现在已经结束了,但很快就会出现新的问题,这些比赛将鼓励你找出现实问题的非正统答案。


Data Science Challenges:https://www.datasciencechallenge.org/


此外还有一些每年仅举办一次的比赛。


KDD CUP



KDD Cup 是 ACM 的数据挖掘及知识发现专委会(SIGKDD)组织的数据挖掘与知识发现竞赛,该竞赛一年举办一次,是数据挖掘人才的顶级专业盛会。KDD-2019 将于 2019 年 8 月 4 日至 8 月 8 日在美国阿拉斯加州的安克雷奇举行。


KDD-2019:https://www.kdd.org/kdd2019/kdd-cup


VizDoom AI competition(VDAIC)



ViZDoom 是基于 Doom 的 AI 研究平台,通过原始视觉信息进行强化学习。Visual Doom AI 竞赛的参赛者要提交可以玩 Doom 的控制器(C++、Python 或 Java 均可)。


ViZDoom:https://www.crowdai.org/challenges/visual-doom-ai-competition-2018-singleplayer-track-1/leaderboards


结论


尽管这个名单会随着时间推移而有所改变,但你最终会找到自己最感兴趣的比赛。那么,加油吧!


原文链接:https://towardsdatascience.com/top-competitive-data-science-platforms-other-than-kaggle-2995e9dad93c



本文为机器之心编译,转载请联系本公众号获得授权

✄------------------------------------------------

加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com

投稿或寻求报道:content@jiqizhixin.com

广告 & 商务合作:bd@jiqizhixin.com

登录查看更多
8

相关内容

数据科学(英語:data science)是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。 它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。 数据科学通过运用各种相关的数据来帮助非专业人士理解问题。
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
91+阅读 · 2020年6月28日
【实用书】流数据处理,Streaming Data,219页pdf
专知会员服务
77+阅读 · 2020年4月24日
【资源】100+本免费数据科学书
专知会员服务
108+阅读 · 2020年3月17日
台湾大学林轩田机器学习书籍《从数据中学习》,216页pdf
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
214+阅读 · 2020年2月21日
谷歌机器学习速成课程中文版pdf
专知会员服务
146+阅读 · 2019年12月4日
Kaggle实战,10 分钟开启机器学习之路
机器学习算法与Python学习
4+阅读 · 2019年5月17日
带学吴恩达机器学习课程和作业,带打Kaggle全球顶级大赛
资源 | 机器学习高质量数据集大合辑(附链接)
数据派THU
6+阅读 · 2018年11月25日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
Kaggle 大神 Eureka 的高手进阶之路
AI研习社
4+阅读 · 2018年3月6日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
Kaggle刚刚上线了机器学习课程,我们帮你做了个测评
Kaggle入门手册
Datartisan数据工匠
14+阅读 · 2017年11月9日
Python机器学习Kaggle案例实战
炼数成金订阅号
12+阅读 · 2017年8月10日
Arxiv
5+阅读 · 2020年3月16日
A Modern Introduction to Online Learning
Arxiv
21+阅读 · 2019年12月31日
Adaptive Neural Trees
Arxiv
4+阅读 · 2018年12月10日
Arxiv
5+阅读 · 2018年10月15日
Arxiv
7+阅读 · 2018年6月1日
Arxiv
3+阅读 · 2018年5月11日
Arxiv
9+阅读 · 2018年3月10日
Arxiv
5+阅读 · 2017年7月23日
VIP会员
相关VIP内容
相关资讯
Kaggle实战,10 分钟开启机器学习之路
机器学习算法与Python学习
4+阅读 · 2019年5月17日
带学吴恩达机器学习课程和作业,带打Kaggle全球顶级大赛
资源 | 机器学习高质量数据集大合辑(附链接)
数据派THU
6+阅读 · 2018年11月25日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
Kaggle 大神 Eureka 的高手进阶之路
AI研习社
4+阅读 · 2018年3月6日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
Kaggle刚刚上线了机器学习课程,我们帮你做了个测评
Kaggle入门手册
Datartisan数据工匠
14+阅读 · 2017年11月9日
Python机器学习Kaggle案例实战
炼数成金订阅号
12+阅读 · 2017年8月10日
相关论文
Arxiv
5+阅读 · 2020年3月16日
A Modern Introduction to Online Learning
Arxiv
21+阅读 · 2019年12月31日
Adaptive Neural Trees
Arxiv
4+阅读 · 2018年12月10日
Arxiv
5+阅读 · 2018年10月15日
Arxiv
7+阅读 · 2018年6月1日
Arxiv
3+阅读 · 2018年5月11日
Arxiv
9+阅读 · 2018年3月10日
Arxiv
5+阅读 · 2017年7月23日
Top
微信扫码咨询专知VIP会员