Python机器学习Kaggle案例实战

2017 年 8 月 10 日 炼数成金订阅号

本课程是《机器学习》《Python机器学习》课程的姐妹篇,旨在加强学员的实际训练,以案例作为基本讲解单元,围绕案例讲解分析思路,特征和模型选择,编写代码等。


本课程的受众主要是没有经过专业训练的IT专业人员,他们可能是程序员,运维,IT系统架构师等等,也适合没有经过科班训练的数据分析师。数据分析是一个业务+算法+IT的交叉领域,同时熟悉这三方面知识的人,可以玩转大数据,产生无穷无尽的花样,产生巨大的价值。但很无奈的情况是这种人才太少,IT人员即使熟悉本公司的业务,但同时又熟悉算法的人极少。一般只能做一些简单的维度统计,指标计算等等,如果说到开发更高智能的系统,知识上鞭长莫及。本课程的目标,正是要打破知识的鸿沟,向IT人员普及算法知识,并把这些知识用于实际项目,把中国的机器学习应用能力提高一个台阶。

每期班的学员都会被加入到一个微信群,除了平时的问题解答外,还会另外安排约5次固定时间微课思路分享和答疑,与10次讲授共计学习时间约十几周左右。


Kaggle简介:

Kaggle创立于2010,是一个专注于举办数据科学周边的线上竞赛的网站。它吸引了大量数据科学家、机器学习开发者的参与,为各类现实中的商业难题开发基于数据的算法解决方案。竞赛的获胜者、领先者,在收获对方公司提供的优厚报酬之外,还将引起业内科技巨头的注意,获得各路 HR 青睐,为自己的职业道路铺上红地毯。

Kaggle 是当今最大的数据科学家、机器学习开发者社区,其行业地位独一无二。


课程目标:

课程从已完结的竞赛中选取了10个比较有代表性的案例,通过分析优胜参赛者的解决思路和方法,从中学习问题的解决思路、数据的预处理方法,各种机器学习、深度学习等领域中的优秀算法,让学员可以将这些方法解决各种实际数据分析问题。


课程大纲:

第一课:Crowdflower Search Results Relevance

案例介绍:预测来自电子商务站点的搜索结果的准确性,将搜索得到的网页按相关性排序

获奖者所用方法:通过ensemble learning整合多个模型的结果

涉及算法:Ensemble learning


第二课:Santander Product Recommendation

案例介绍:根据银行客户1.5年内的行为数据,预测用户会下一步会投资的新产品

获奖者所用方法:通过XGBoost构建了多个基本模型,然后将基本模型整合为一个总模型

涉及算法:XGBoost


第三课:TalkingData Mobile User Demographics

案例介绍:根据用户的手机应用下载和使用行为来预测用户的人口统计数据(年龄、性别等)

获奖者所用方法: 先预测性别的概率;使用性别的预测值作为额外的特征加入到模型中,预测年龄;通过条件概率得到两个目标变量的预测概率

涉及算法:两段预测,XGBoost


第四课:Facebook V: Predicting Check Ins

案例介绍:预测用户会在哪个地方登陆Facebook

获奖者所用方法:特征选择:数据块的最近邻计算;模型构建:基于XGBoost的两步模型

涉及算法:XGboost

  

第五课:Bosch Production Line Performance

案例介绍:为了避免卖家发布各种经过少量改动的广告导致买家难以分辨,参赛者需要设计一个模型,自动识别配对中的广告是否同一个广告

获奖者所用方法:特征选择:采用了FTIM方法测试特征的不稳定性,提出过度拟合的特征。通过XGBoost和Keras构建一层模型;然后通过底层模型构建XGBoost 和随机森林,最终综合两者结果得到最终结果

涉及算法:FTIM;元模型


第六课:Click-Through Rate Prediction

案例介绍:预测某个广告是否会被点击

获奖者所用方法:将数据拆分成不同的子集,构建不同的子模型,再整合

涉及算法:LIBFFM


第七课:Avito Context Ad Clicks

案例介绍:预测俄罗斯最大的一般分类网站的用户在浏览网站时,是否点击上下文广告

获奖者所用方法:预处理:散列技巧和消极的抽样。 学习方法:FFM、FM和XGBoost。

涉及算法:FFM;FM;XGboost


第八课:Outbrain Click Prediction  Outbrain点解预测

案例介绍:在一组针对用户推荐内容中,预测用户点击每个链接的可能,将这些推荐内容按照点击可能的大小排序

获奖者所用方法:两步元模型:通过LibFFM构建第一层模型,再使用XGBoost和Keras构建第二层模型

涉及算法:LibFFM;XGBoost;Keras框架


第九课:Rossmann Store Sales

案例介绍:预测Rossmann公司各个门店的6周销售量

获奖者所用方法:分类特征的处理:创建了一种 Entity Embedding(实体嵌入)的方法去代表在多维空间中的分类特征。

涉及算法:Entity Embedding;神经网络


第十课:Amazon.com - Employee Access Challenge

案例介绍:根据员工的职业角色,预测员工的访问需求

获奖者所用方法:11个模型的线性组合:使用不同特征训练的GBM模型,GLNNET模型,随机森林模型,logistic回归模型

涉及算法:GBM模型,GLNNET模型,随机森林模型,logistic回归模型


授课时间:

课程将于2017年8月16日开课,课程持续时间大约为15周


授课对象:

对机器学习有兴趣的朋友,特别适合想学习算法的IT专业人员或非科班出身的数据分析人员。最好能有一些线性代数,统计等数学基本知识,没有也无妨,可以在课程期间快速补强。


收获预期:

能独立完成某些特定场景的分析工作,胜任数据分析师,机器学习程序员等流行职位的技术要求


授课讲师:

tigerfish,知名数据库网站ITPUB创始人,知名数据分析网站炼数成金创始人。数据库专家,数据分析专家,有丰富的IT领域、数学领域的知识经验。他将带领他的数据分析团队完成整个授课工作。 他将负责大部分算法讲解和思路分析部分。

何翠仪,中山大学统计学专业毕业,炼数成金专职讲师,在过去曾负责多门炼数成金数据分析课程的助教工作,目前正在主持建设炼数成金的认证题库系统。她将负责代码讲解部分。


点击下方二维码或阅读原文报名课程:


登录查看更多
12

相关内容

【实用书】Python数据科学从零开始,330页pdf
专知会员服务
143+阅读 · 2020年5月19日
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
342+阅读 · 2020年3月17日
【经典书】Python数据数据分析第二版,541页pdf
专知会员服务
194+阅读 · 2020年3月12日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
214+阅读 · 2020年2月21日
【新书】Pro 机器学习算法Python实现,379页pdf
专知会员服务
202+阅读 · 2020年2月11日
【机器学习课程】Google机器学习速成课程
专知会员服务
165+阅读 · 2019年12月2日
【电子书推荐】Data Science with Python and Dask
专知会员服务
44+阅读 · 2019年6月1日
Kaggle实战,10 分钟开启机器学习之路
机器学习算法与Python学习
4+阅读 · 2019年5月17日
Python数据分析案例实战
炼数成金订阅号
5+阅读 · 2019年5月9日
136 个 Python 机器学习知识点让你受益终生!
Python开发者
7+阅读 · 2018年12月18日
Kaggle比赛实战教程
专知
14+阅读 · 2018年7月30日
Xgboost算法——Kaggle案例
R语言中文社区
13+阅读 · 2018年3月13日
Python & 机器学习之项目实践 | 赠书
人工智能头条
14+阅读 · 2017年12月26日
课程 | 12个适合机器学习入门的经典案例
A Survey on Bayesian Deep Learning
Arxiv
63+阅读 · 2020年7月2日
Arxiv
4+阅读 · 2019年9月5日
Arxiv
7+阅读 · 2019年5月31日
Arxiv
12+阅读 · 2018年9月15日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
9+阅读 · 2018年3月23日
Arxiv
7+阅读 · 2018年3月21日
VIP会员
相关VIP内容
【实用书】Python数据科学从零开始,330页pdf
专知会员服务
143+阅读 · 2020年5月19日
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
342+阅读 · 2020年3月17日
【经典书】Python数据数据分析第二版,541页pdf
专知会员服务
194+阅读 · 2020年3月12日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
214+阅读 · 2020年2月21日
【新书】Pro 机器学习算法Python实现,379页pdf
专知会员服务
202+阅读 · 2020年2月11日
【机器学习课程】Google机器学习速成课程
专知会员服务
165+阅读 · 2019年12月2日
【电子书推荐】Data Science with Python and Dask
专知会员服务
44+阅读 · 2019年6月1日
相关资讯
Kaggle实战,10 分钟开启机器学习之路
机器学习算法与Python学习
4+阅读 · 2019年5月17日
Python数据分析案例实战
炼数成金订阅号
5+阅读 · 2019年5月9日
136 个 Python 机器学习知识点让你受益终生!
Python开发者
7+阅读 · 2018年12月18日
Kaggle比赛实战教程
专知
14+阅读 · 2018年7月30日
Xgboost算法——Kaggle案例
R语言中文社区
13+阅读 · 2018年3月13日
Python & 机器学习之项目实践 | 赠书
人工智能头条
14+阅读 · 2017年12月26日
课程 | 12个适合机器学习入门的经典案例
相关论文
A Survey on Bayesian Deep Learning
Arxiv
63+阅读 · 2020年7月2日
Arxiv
4+阅读 · 2019年9月5日
Arxiv
7+阅读 · 2019年5月31日
Arxiv
12+阅读 · 2018年9月15日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
9+阅读 · 2018年3月23日
Arxiv
7+阅读 · 2018年3月21日
Top
微信扫码咨询专知VIP会员