Kaggle大神是如何炼成的?
最近,一个印度裔Kaggle大神在论坛上分享了他获得4个类别的Grandmaster的经历。
嗯,一共就只有四种。
可以看到,他的金牌总数加起来就有84枚,其中Discussion上获得了56枚,数据集这一类别的排名术最高,在27466个选手中位列第7位,最高排名为第6位。
在Competitions里,他共获得了4枚单人金牌和4枚团队金牌。
为此,他就发表了一篇博文回忆了过去一些印象深刻的项目,并感谢Kaggle给他这样一个平台:
我断断续续在Kaggle上跑了七年,这真是一段旅程。
Kaggle不仅仅是网站或竞赛。对于喜欢数据科学和机器学习的人来说,这是一生的经历。
除此之外,他还是一个数独爱好者,多次获得国家冠军,最高排名第8。
首先是Competitions。
在过去7年中,他共完成了56场比赛,他的最高成绩是4枚个人金牌和4枚团队金牌。
其中Santander、ASHRAE这几个金牌项目令他印象深刻。
Santander Product Recommendation,桑坦德产品推荐。(桑坦德,西班牙的一个银行)
这一挑战中,主要是根据客户过去的行为以及类似客户的行为,来预测现有客户下个月将使用哪些产品,进而将产品和人来匹配。
最终,共有1779支队伍参加,而他与另一位数据科学家合作@sudalairajkumar,排列第11位,摘得他第五枚金牌。
还有像ASHRAE,预测建筑物将消耗多少能量?Rossmann Store Sales,利用商店促销、竞争对手来分析销售情况等等。
作者认为,这是唯一具有意义的积分排名系统类别。他希望可以成为Kaggle以外的行业标准,使其更具价值。
然后是Datasets。
作者表示,为数据集争取投票是最具挑战性任务之一。
因此,他就以对终端用户最有用、最为结构化的格式来准备数据集,并加以尽可能多的细节描述。
一些令人印象深刻的数据有这些:
印度的空气质量:作者花了100小时来汇总、清理和准备这个数据集。
Chai Time Data Science Show(对ML专家的采访节目)每集的统计数据;
女特级大师的国际象棋比赛(2009-2020年)。嗯,国际象棋是作者的最爱。
不过,在他发布的18个数据集当中,我还是发现了一些有趣的数据集。
比如,拜登的从2007年-2020年数据推特数。
SpaceX的数据(2006-2020)。
还有Notebooks。
在比赛结束之前,作者是不会看公共EDA Notebook。一般是在完成自己深度EDA后再看别人的工作。
按照这样的方式,他就获得了15枚金牌,4枚银牌以及6枚铜牌,达到大师级别。
不过,他也感叹道,用Macbook Air赢得比赛的日子已经一去不复返了,但谁说不会再尝试了呢。
最后还有,Discussions。
作为喜欢交流的他,除了获得以上成绩之外,他还对社区一些建议,
社区通过帖子的净投票来优先处理有用的讨论,并过滤掉垃圾信息,这一点做得很好。
我希望Datasets和Notebooks也能允许下拉投票,不被区别对待。
来介绍一下作者本作——Vopani,真名叫做Rohan Rao,来自印度,是H2O.ai的数据科学家,毕业于印度孟买理工学院应用统计学专业。
而H2O.ai是一家成立于2012年,总部位于硅谷的开源软件公,该公司拥有一个数据科学和机器学习的开源平台H2O。据介绍称,一半的世界五百强公司都在使用这个平台。
除此之外,他还是一个数独爱好者。
他曾获得7次全国数独冠军,5次全国拼图类冠军,4次时代数独国家冠军,2020年亚洲数独锦标赛银牌得主。
目前数独世界排名在第23名,最佳成绩到过第8名。
果然,优秀的人一定不只一个地方优秀。
好了,所以你身边有没有遇到Kaggle大神的经历,欢迎与我们分享。
参考链接:
https://www.kaggle.com/general/195396
— 完 —
本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。
榜单征集!7大奖项锁定AI TOP企业
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见~