爆红GitHub!有人打算用这个项目100天拿下机器学习

2018 年 9 月 15 日 算法与数据结构

开源最前线(ID:OpenSourceTop) 猿妹整编

https://theinfogrid.com/tech/machine-learning/100daysofmlcode-join-the-challenge-and-learn-machine-learning/、GitHub详情页


机器学习是我们这个时代最具变革性的技术,它具有从太空探索到财务,医学和科学的巨大应用。据估计,未来对机器学习专家的需求将会不断增加,今年估计增长约60%。


最重要的是,该行业在过去几年中经历了巨大的变革。以前,要成为一名机器学习专家,你需要有一个博士学位(或一些高学历),但现在已经不是这样了。由于大型科技公司如Alphabet(谷歌母公司),IBM,微软等公司的参与,现在任何人都可以更轻松地开始机器学习。


这不,YouTube上的大咖Siraj Raval就发起了一个挑战赛:#100DaysOfMLCode



什么是#100DaysOfMLCode?



这是向机器学习开发人员(专家或新手)发出的挑战,要求在接下来的100天内每天至少花一小时学习和构建机器学习模型。内容有易到难,由此也可以看得出博主Avik-Jain的用心良苦。了解更多挑战赛详情,可访问其官方GitHub地址:https://github.com/llSourcell/100_Days_of_ML_Code


其中一名叫Avik Jain的机器学习爱好者,创建了一个100-Days-Of-ML-Code的项目,很快引起了大家的注意,截至今日,该项目已经获得了 11570 个「star」以及 1993 个「fork」(GitHub地址:https://github.com/Avik-Jain/100-Days-Of-ML-Code)。


更不可思议的是,他还创建了该项目的中文版(中文版地址:https://github.com/Avik-Jain/100-Days-of-ML-Code-Chinese-Version


从他的GitHub主页可以看到他共创建了6个项目:



目前作者的100天计划,已经进行到第54天,已有的内容包括:


有监督学习

● 数据预处理

● 简单线性回归

● 多元线性回归

● 逻辑回归

● k近邻法(k-NN)

● 支持向量机(SVM)

● 决策树

● 随机森林


无监督学习

● K-均值聚类

● 层次聚类


这里我们通过介绍第一天的数据预处理来深入了解下这个项目


数据预处理



第一步导入库


import numpy as np
import pandas as pd



第2步:导入数据集


dataset = pd.read_csv('Data.csv')
X = dataset.iloc[ : , :-1].values
Y = dataset.iloc[ : , 3].values



第3步:处理丢失数据


from sklearn.preprocessing import Imputer
imputer = Imputer(missing_values = "NaN", strategy = "mean", axis = 0)
imputer = imputer.fit(X[ : , 1:3])
X[ : , 1:3] = imputer.transform(X[ : , 1:3])



第4步:解析分类数据


from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder_X = LabelEncoder()
X[ : , 0] = labelencoder_X.fit_transform(X[ : , 0])



创建虚拟变量


onehotencoder = OneHotEncoder(categorical_features = [0])
X = onehotencoder.fit_transform(X).toarray()
labelencoder_Y = LabelEncoder()
Y =  labelencoder_Y.fit_transform(Y)



第5步:拆分数据集为训练集合和测试集合


from sklearn.cross_validation import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split( X , Y , test_size = 0.2, random_state = 0)



第6步:特征量化


from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.fit_transform(X_test)


通过6步完成数据预处理。此例子中用到的数据地址:https://github.com/Avik-Jain/100-Days-Of-ML-Code/blob/master/datasets/Data.csv


可以看出他每天的计划都包含一张学习图片,操作补流程、相应的代码,以及用到的数据


简单线性回归 | 第2天




多元线性回归 | 第3天




逻辑回归 | 第4天




●编号748,输入编号直达本文

●输入m获取文章目录

登录查看更多
4

相关内容

纽约州立大学布法罗分校(University at Buffalo–SUNY)成立于 1846 年,学校于 1962 年并入纽约州立大学(SUNY)系统。作为纽约州立大学系统中的旗舰机构,纽约州立大学布法罗分校是 SUNY 系统 64 个校区的中规模最大、综合性最强的校区。同时,学校是美国大学协会的成员。纽约州立大学布法罗分校是一所致力于学术卓越的一流研究密集型公立大学。学校以坚韧乐观的文化、足智多谋的思维和务实的梦想为特色,吸引了州内和来自全球是学生。其计算机专业在 CSRankings 排名 43,USnews 排名 61,学生将受益于计算机系全面多样的研究方向: https://engineering.buffalo.edu/computer-science-engineering/research/research-areas.html
Sklearn 与 TensorFlow 机器学习实用指南,385页pdf
专知会员服务
130+阅读 · 2020年3月15日
《深度学习》圣经花书的数学推导、原理与Python代码实现
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
214+阅读 · 2020年2月21日
谷歌机器学习速成课程中文版pdf
专知会员服务
146+阅读 · 2019年12月4日
资源 | 李航老师《统计学习方法》(第2版)课件下载
专知会员服务
253+阅读 · 2019年11月10日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
19+阅读 · 2019年10月9日
机器学习在材料科学中的应用综述,21页pdf
专知会员服务
49+阅读 · 2019年9月24日
爆红GitHub!有人打算用这个项目100天拿下Python
程序猿
16+阅读 · 2019年5月15日
2018年8月份GitHub上最热门的开源项目
算法与数据结构
3+阅读 · 2018年9月4日
3月份Github上最热门的数据科学和机器学习项目
大数据技术
7+阅读 · 2018年4月23日
已删除
生物探索
3+阅读 · 2018年2月10日
GitHub上12月份最热门开源项目
程序猿
4+阅读 · 2018年1月9日
28 款 GitHub 最流行的开源机器学习项目(附地址)
七月在线实验室
4+阅读 · 2017年12月18日
GitHub最著名的20个Python机器学习项目!
THU数据派
6+阅读 · 2017年12月14日
GitHub最著名的20个Python机器学习项目
全球人工智能
9+阅读 · 2017年12月7日
tensorflow项目学习路径
数据挖掘入门与实战
22+阅读 · 2017年11月19日
Arxiv
11+阅读 · 2019年6月19日
Hardness-Aware Deep Metric Learning
Arxiv
6+阅读 · 2019年3月13日
Adversarial Transfer Learning
Arxiv
12+阅读 · 2018年12月6日
Few Shot Learning with Simplex
Arxiv
5+阅读 · 2018年7月27日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
6+阅读 · 2018年4月4日
VIP会员
相关VIP内容
Sklearn 与 TensorFlow 机器学习实用指南,385页pdf
专知会员服务
130+阅读 · 2020年3月15日
《深度学习》圣经花书的数学推导、原理与Python代码实现
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
214+阅读 · 2020年2月21日
谷歌机器学习速成课程中文版pdf
专知会员服务
146+阅读 · 2019年12月4日
资源 | 李航老师《统计学习方法》(第2版)课件下载
专知会员服务
253+阅读 · 2019年11月10日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
19+阅读 · 2019年10月9日
机器学习在材料科学中的应用综述,21页pdf
专知会员服务
49+阅读 · 2019年9月24日
相关资讯
爆红GitHub!有人打算用这个项目100天拿下Python
程序猿
16+阅读 · 2019年5月15日
2018年8月份GitHub上最热门的开源项目
算法与数据结构
3+阅读 · 2018年9月4日
3月份Github上最热门的数据科学和机器学习项目
大数据技术
7+阅读 · 2018年4月23日
已删除
生物探索
3+阅读 · 2018年2月10日
GitHub上12月份最热门开源项目
程序猿
4+阅读 · 2018年1月9日
28 款 GitHub 最流行的开源机器学习项目(附地址)
七月在线实验室
4+阅读 · 2017年12月18日
GitHub最著名的20个Python机器学习项目!
THU数据派
6+阅读 · 2017年12月14日
GitHub最著名的20个Python机器学习项目
全球人工智能
9+阅读 · 2017年12月7日
tensorflow项目学习路径
数据挖掘入门与实战
22+阅读 · 2017年11月19日
相关论文
Arxiv
11+阅读 · 2019年6月19日
Hardness-Aware Deep Metric Learning
Arxiv
6+阅读 · 2019年3月13日
Adversarial Transfer Learning
Arxiv
12+阅读 · 2018年12月6日
Few Shot Learning with Simplex
Arxiv
5+阅读 · 2018年7月27日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
6+阅读 · 2018年4月4日
Top
微信扫码咨询专知VIP会员