机器学习一周心得分享

2018 年 6 月 7 日 七月在线实验室

英文:Per Harald Borgen

编译: 伯乐在线 - 心灵是一棵开花的树

http://blog.jobbole.com/110684/


在门外汉看来,机器学习(Machine Learing,ML)入门是个不可完成的任务。

如果你选错了方向,确实就是不可能的了。

然而,在我学习机器学习的基本知识一周后,发现入门比我想象的容易。

本文旨在给予那些对机器学习有兴趣的人一些入门指南,这个指南来自我为期一周的学习经验。

背景

在我开始这一周的机器学习之前,我已经阅读过一些相关的文章了, 并且学习了一半吴恩达(Andrew Ng)在 Coursera 上的机器学习课程,以及一些其他的理论课程。所以我对机器学习有些基本的概念,但我仍然我不能将我的知识转换为代码,这是我想要改变的。

我想在一周学习的最后阶段能够用 ML 解决问题,尽管这意味着会跳过很多基础知识,我采取了自上而下的学习方法,而不是自下而上。

在 Hacker News 上咨询之后,我得出的结论是 Python 的 Scikit Learn 库是最适合入门的。这个库提供了丰富的算法,将实际的机器学习问题减少到几行代码。

星期一:学习一些实例

我的学习之旅从查找关于 Scikit Learn 的视频教程开始。我最后选择了 Sentdex 关于使用ML投资股票的教程,这个教程给了我继续学习的必备知识。

Sentdex 教程的好处是,教师会引导你一步步去收集数据。随着学习的深入,你会发现获取和清理数据是比真正的机器学习更耗时的。因此,编写脚本抓取文件或网络中的数据的能力是一个ML极客的必备技能。

我后来又重看了几个视频,以解决之前我不理解的问题。我建议你也这样做。

但是,如果你已经知道如何从网站抓取数据了,那本教程可能不是很适合你,因为许多视频都是关于数据抓取的。如果是这样的话, Udacity的机器学习教程可能更适合你。

星期二:将ML应用到实际问题

星期二我想看看是否能用我所学解决一个实际问题。因为另一个合作编程的伙伴正在参加英格兰银行数据可视化大赛,所以我与他一起查看了该银行发布的数据。其中最有趣的是他们的家庭调查数据,这是该银行对数千户家庭进行的关于金钱方面的年度调查。

我们决定解决的问题如下:

给定一个人的教育水平,年龄和收入信息,计算机可否预测其性别?

我观察这个数据集后,花了几个小时清理数据,并使用 Scikit Learn map 去找一个适合该问题的算法。

最后我们预测的成功率达到了 63%,这并不令人震撼。但是至少比掷硬币的准确率(50%)高一些。

最后的结果是激励你的动力,所以我建议一旦你会使用 Scikit Learn 了,就自己来动手做一做。

你意识到你可以使用 ML 来解决现实生活中的问题的时刻是很一个关键的时刻。

星期三:从头开始

在玩转各种 Scikit Learn 模块后,我决定尝试从头开始写一个线性回归算法。

我想这样做是因为我一直觉得我真的不明白后台发生了什么。

幸运的是,coursera 课程详细介绍了几种算法的工作原理,这在很大程度上是有用的。更具体地说,它描述了使用具有梯度下降的线性回归的最底层的概念。

这肯定是最高效的学习技巧,因为它迫使你了解后台的一些细节。 我强烈建议你也这么做。

我计划在继续学习的过程中重写我自己实现的一些更复杂的算法,但我想在学会 Scikit Learn 中相应的算法之后再做。

星期四:开始参加竞赛

星期四,我开始研究 Kaggle 的入门教程。Kaggle 是一个机器学习的竞赛平台,你可以在其中提交公司或组织发布的问题的解决方案。

我建议你在对机器学习有一些理论和实践经验后再尝试 Kaggle。你需要这些知识才能开始使用 Kaggle,否则你可能没什么收获,反而会觉得沮丧。

“Bag of Words”教程指导你完成参赛资料提交的每个步骤,并会给你一个简短而令人兴奋的有关自然语言处理(NLP)的介绍。看完教程之后,我对 NLP 的兴趣大大增加。

星期五:回到学校

星期五, 我继续 Kaggle 教程的学习,并开始看 Udacity 的机器学习简介。我现在的学习很愉快。

它比 Coursera 的课程简单,因为它不会深入讲算法的具体内容。但它很实用,因为它会讲如何使用 Scikit Learn,这比 Coursera 课程中的告诉你用 Octave 从头开始实现算法更易于应用到实际问题。

未来之路

这一周的学习不仅是好玩,更使我认识到了机器学习在社会中的作用。我越了解它,就越明白他可以解决哪些领域的问题。

如果你对机器学习感兴趣,我强烈建议你花几天或几晚上的时间深入了解一下。

如果你还没有准备好面对复杂难懂的原理,请选择一个自上而下的方法并尽快从解决实际问题开始吧。

祝你好运!

感谢阅读!我叫 Per Borgen,主要写一些入门文章。

如果你有任何问题或者想与我联系,请通过 Twitter, GitHub或者邮件(perhborgen@gmail.com)随时与我联系。

《机器学习 第九期》从零到机器学习实战项目,提供GPU&CPU双云平台,作业考试1V1批改(优秀学员内推BAT等);点击文末“阅读原文”了解详情

登录查看更多
0

相关内容

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【资源】100+本免费数据科学书
专知会员服务
107+阅读 · 2020年3月17日
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
338+阅读 · 2020年3月17日
机器学习速查手册,135页pdf
专知会员服务
338+阅读 · 2020年3月15日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
354+阅读 · 2020年2月15日
【机器学习课程】Google机器学习速成课程
专知会员服务
164+阅读 · 2019年12月2日
381页机器学习数学基础PDF下载
专知
88+阅读 · 2018年10月9日
关于机器学习你要了解的 5 件事
机器学习算法与Python学习
7+阅读 · 2018年9月7日
干货 | 机器学习怎么从入门到不放弃!
THU数据派
6+阅读 · 2018年6月8日
重磅干货-史上最全推荐系统资源分享
深度学习与NLP
8+阅读 · 2018年4月22日
数据科学与机器学习数据集
Datartisan数据工匠
8+阅读 · 2017年12月14日
干货 | 从零开始入门机器学习算法实践
雷锋网
9+阅读 · 2017年11月30日
独家 | 两个月上手AI的学习经验(附学习资源)
THU数据派
3+阅读 · 2017年10月26日
机器学习(23)之GBDT详解
机器学习算法与Python学习
12+阅读 · 2017年10月25日
干货|7步让你从零开始掌握Python机器学习!
全球人工智能
8+阅读 · 2017年9月24日
Arxiv
4+阅读 · 2019年12月2日
Arxiv
5+阅读 · 2018年6月5日
Arxiv
7+阅读 · 2018年5月23日
Arxiv
6+阅读 · 2018年1月14日
VIP会员
相关VIP内容
【资源】100+本免费数据科学书
专知会员服务
107+阅读 · 2020年3月17日
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
338+阅读 · 2020年3月17日
机器学习速查手册,135页pdf
专知会员服务
338+阅读 · 2020年3月15日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
354+阅读 · 2020年2月15日
【机器学习课程】Google机器学习速成课程
专知会员服务
164+阅读 · 2019年12月2日
相关资讯
381页机器学习数学基础PDF下载
专知
88+阅读 · 2018年10月9日
关于机器学习你要了解的 5 件事
机器学习算法与Python学习
7+阅读 · 2018年9月7日
干货 | 机器学习怎么从入门到不放弃!
THU数据派
6+阅读 · 2018年6月8日
重磅干货-史上最全推荐系统资源分享
深度学习与NLP
8+阅读 · 2018年4月22日
数据科学与机器学习数据集
Datartisan数据工匠
8+阅读 · 2017年12月14日
干货 | 从零开始入门机器学习算法实践
雷锋网
9+阅读 · 2017年11月30日
独家 | 两个月上手AI的学习经验(附学习资源)
THU数据派
3+阅读 · 2017年10月26日
机器学习(23)之GBDT详解
机器学习算法与Python学习
12+阅读 · 2017年10月25日
干货|7步让你从零开始掌握Python机器学习!
全球人工智能
8+阅读 · 2017年9月24日
相关论文
Arxiv
4+阅读 · 2019年12月2日
Arxiv
5+阅读 · 2018年6月5日
Arxiv
7+阅读 · 2018年5月23日
Arxiv
6+阅读 · 2018年1月14日
Top
微信扫码咨询专知VIP会员