机器学习必备手册

2017 年 10 月 24 日 机器学习研究会

机器学习是计算机科学的一个子领域,在人工智能领域,机器学习逐渐发展成模式识别和计算科学理论的研究。从2016年起,机器学习到达了不合理的火热巅峰。但是,有效的机器学习是困难的,因为机器学习本身就是一个交叉学科,没有科学的方法及一定的积累很难入门。



本文通过系统的分析上百篇翻译博客,制成了机器学习必备手册,对于想要学习的你来说,一定会有很大的帮助。手册包含如何入门机器学习,机器学习流行算法,机器学习实战等等。


以下为干货博文目录,文章详情请点击左下角【阅读原文】进入学习。


一.机器学习入门篇:


1.让你少走弯路:这有一份开展机器学习的简短指南


摘要:本文分享了一份简单的关于开展机器学习的心得体会,目的是给初学者提供基本的指导,主要讲解了建立系统、选择合适的评价指标、数据处理、系统优化等内容,帮助初学者少走一些弯路。


2. 机器学习的入门“秘籍”


摘要:机器学习已经成为当下最火热的技术之一,对于初学者来说,如何快速入门机器学习是至关重要的。本文属于入门级宝典,高手请绕道!


3. 会玩超级玛丽,机器学习能有多难?


摘要:小白也能看懂机器学习?这篇文章用超级玛丽的原理教会你,到底什么是机器学习,让尖端科技不再艰深难懂。


4. 机器学习能为你的业务做什么?有些事情你肯定猜不到!(机器学习入门第一篇)


摘要:机器学习是一项令人难以置信的技术,你需要了解很多很多的基础知识,以使得业务功能尽可能的不受复杂算法的影响,让你能够提出正确的问题、了解机器学习模型开发过程、成立一个团队以促进学科间的不断合作,而不是把数据科学视为一个产生奇迹的黑匣子。


5. 关于机器学习算法 你需要了解的东西(机器学习入门第二篇)


摘要:对学习算法进行分类是基于构建模型时所需的数据:数据是否需要包括输入和输出或仅仅是输入,需要多少个数据点以及何时收集数据。根据上述分类原则,可以分为4个主要的类别:监督学习、无监督学习、半监督学习和强化学习。


6. 如何开发机器学习模型?(机器学习入门第三篇)


摘要:创建一个优秀的机器学习模型跟创建其他产品是一样的:首先从构思开始,把要解决的问题和一些潜在的解决方案放在一起考虑。一旦有了明确的方向,就可以对解决方案进行原型化,然后对它进行测试以确定是否满足需求,不妨看看本文是如何一步一步实现的。


7.如何高效运作机器学习团队(机器学习入门第四篇)


摘要: 一个“传统”的产品团队由设计师、工程师和产品经理组成,而数据分析师有时也会包含在其中,但大多数情况下是多个团队共享这个稀缺资源。在机器学习团队中又会有哪些角色和组织结构呢,本文为你揭晓。


8.机器学习会产生哪些用户体验问题?(机器学习入门第五篇)


摘要:许多机器学习算法都是黑匣子:输入大量的数据,然后获得一个以某种神秘方式工作的模型。这使得很难向用户解释机器学习的结果。在许多算法中,还存在着交互效应,这使得模型更加难以解释了。你可以把这个看成是特征之间的复合效应,特征之间以多种奇怪而又复杂并且不为人类所理解的方式结合在一起,整体效应大于各个部分效应。


9. 简单自学机器学习理论——引言 (Part I)


摘要:本篇文章是"机器学习理论"三部曲中的第一部分,主要介绍学习机器学习的动机及基本理论知识,详细介绍机器学习所学习的问题、泛化误差以及学习问题是否可解的公式化表示,为初步研究机器学习的人员介绍了机器学习的基本处理过程。


10. 简单自学机器学习理论—— 泛化界限 (Part II )


摘要:本篇文章是"机器学习理论"三部曲中的第二部分,主要介绍独立同分布、大数法则及hoeffding不等式等基本数学知识,详细推导了泛化界限及其分解。


11. 简单自学机器学习理论——正则化和偏置方差的权衡 (Part III )


摘要:本篇文章是"机器学习理论"三部曲中的第三部分,主要介绍方差分解以及目标函数的正则化,通过仿真可以看到,引入正则化项限定了学习问题的解决方案范围。


12. 入门级攻略:机器学习 VS. 深度学习


摘要:本文以浅显易懂的语言介绍了机器学习和深度学习的定义及应用,以及在源数据要求,硬件支持,特征工程、问题解决方式、执行时间及可解释性等方面的区别,对于新手入门有很大启示意义。


13. 增强学习小白?本文带你入门了解增强学习


摘要:入门一件新事物总是会有些无从下手的,看了本文希望可以给大家一些帮助和了解。


14.这10本由浅入深的好书,或让你成为机器学习领域的专家


摘要:机器学习是个跨领域的学科,而且在实际应用中有巨大作用,但是没有一本书能让你成为机器学习的专家。在这篇文章中,我挑选了10本书,这些书有不同的风格,主题也不尽相同,出版时间也不一样。因此,无论你是新手还是领域专家,定能找到适合你的。


15.想知道机器学习掌握的怎么样了吗?这有一份自测题(附答案和解析)


摘要:人类对于自动化和智能化的追求一直推动着技术的进步,而机器学习这类型的技术对各个领域都起到了巨大的作用。随着时间的推移我们将看到机器学习无处不在从移动个人助理到电子商务网站的推荐系统。即使作为一个外行你也不能忽视机器学习对你生活的影响。本次测试时面向对机器学习有一定了解的人。


16. 送机器学习电子书——(TensorFlow)RNN入门


摘要:本文作者正在写自己的新书Machine Learning with TensorFlow,这篇博文只是他新书的一小部分,作者用简单的语言介绍了RNN,不用一个小例子介绍了如何使用Tensorflow中内置的RNN模型进行预测。


17. 适合入门的8个趣味机器学习项目


摘要:还在为找不到机器学习入门练手项目而感到无奈吗?本指南中,将给大家带来8个适合初学者学习的有趣的机器学习项目,简单易学,相信会增添大家学习机器学习的信心。


18. 机器学习快速入门:你必须知道的三大算法


摘要:每天霸占新闻头条的“机器学习”,想入门,先看懂这三大算法。



二.机器学习算法篇:


1.快速选择合适的机器学习算法


摘要:机器学习初学者可以通过本文了解如何快速找到合适的机器学习算法。


2.多重角度解读:贝叶斯推理是怎么工作的


摘要:本文首先介绍了贝叶斯的起源,并利用简单的例子生动形象地讲解了贝叶斯定理是如何工作的,解释了其基本原理以及公式的物理含义。


3.简单通俗易懂:一个小例子完美解释Naive Bayes(朴素贝叶斯)分类器


摘要:Naive Bayes分类器的解释有很多,但是基于一个小例子来解释的不多,本文就是基于一个简单通俗易懂的小例子来解释Naive Bayes分类器。


4.“学”、“习”二合一:监督学习——支持向量机(SVM)入门


摘要:SVM是机器学习中有监督学习的一种,通常用来进行模式识别、分类、以及回归分析。本文用一个小例子简介SVM,言简意赅,通俗易懂。


5.机器学习利器——决策树和随机森林


摘要: 机器学习是当下最火的领域,本文通过一个小例子介绍了其核心算法:决策树和随机森林。


6.基于图的机器算法 (一)


摘要:基于图的机器算法学习是一个强大的工具。结合运用模块特性,能够在集合检测中发挥更大作用。


7.基于图的机器算法 (二)


摘要:基于图的机器算法学习是一个强大的工具。结合运用模块特性,能够在集合检测中发挥更大作用。本文是基于图的机器算法系列文的第二篇。


8.简单易学!一步步带你理解机器学习算法——马尔可夫链蒙特卡罗(MCMC)


摘要:对于简单的分布,很多的编程语言都能实现。但对于复杂的分布,是不容易直接抽样的。马尔可夫链蒙特卡罗算法解决了不能通过简单抽样算法进行抽样的问题,是一种实用性很强的抽样算法。本文将简明清晰地讲解马尔可夫链蒙特卡罗算法,带你理解它。


9.进阶隐式矩阵分解——探讨如何实现更快的算法


摘要:本文重点是围绕Conjugate Gradient(共轭梯度)方法来探讨更优的矩阵分解算法。


10.纯干货|机器学习中梯度下降法的分类及对比分析(附源码)


摘要:本文详细介绍了基于使用数据量的多少,时间复杂度以及算法准确率的不同类型的梯度下降法,并详细说明了3种梯度下降法的比较。


11.深度学习网络大杀器之Dropout(I)——深入解析Dropout


摘要:本文详细介绍了深度学习中dropout技巧的思想,分析了Dropout以及Inverted Dropout两个版本,另外将单个神经元与伯努利随机变量相联系让人耳目一新。


12.深度学习网络大杀器之Dropout(II)——将丢弃学习视为集成学习之我见


摘要:本文分析了可以将丢弃学习当作是集成学习。在集成学习中,可以将一个网络划分成若干个子网络,并且单独训练每个子网络。在训练学习后,将每个子网络的输出进行平均得到集成输出。另外,展示了丢弃学习可以看成是在每次迭代中不同隐藏节点集合的集成学习表现,同时也展示了丢弃学习有着与L2正则化一样的效果。


13.神经网络常用激活函数对比:sigmoid VS sofmax(附python源码)


摘要:本文介绍了神经网络中的两种常用激活函数——softmax与sigmoid函数,简单介绍了其基本原理、性质及其使用,并用python进行了实例化演示,在文章的最后总结了两种激活函数的区别。


14.新颖训练方法——用迭代投影算法训练神经网络


摘要:本文介绍了一种利用迭代投影算法对神经网络进行训练的方法,首先介绍了交替投影的基础知识,说明投影方法是寻找非凸优化问题解决方案的一种有效方法;之后介绍了差异图的基础知识,将差异图与一些其他算法相结合使得差分映射算法能够收敛于一个好的解决方案;当投影的情况变多时,介绍了分治算法,最后将迭代投影算法应用到神经网络训练中,给出的例子实验结果表明效果不错。


15.车辆追踪算法大PK:SVM+HOG vs. YOLO


摘要:本文通过SVM+HOG算法,YOLO算法实现车辆检测和跟踪准确性和速度的对比,得出YOLO算法更具优势的结论。


16.什么是视频向量化?本文带你了解基于DeepWalk的视频推荐


摘要:本文简要讲述了视频向量化,对DeepWalk的算法进行简单的解释。


17.比PCA降维更高级——(R/Python)t-SNE聚类算法实践指南


摘要: 本文介绍t-SNE聚类算法,分析其基本原理。并从精度上与PCA等其它降维算法进行比较分析,结果表明t-SNE算法更优越,本文最后给出了R、Python实现的示例以及常见问题。t-SNE算法用于自然语音处理、图像处理等领域很有研究前景。


18.随机森林 VS 梯度提升机——模型融合之我见


摘要:本文节选自Quora社区上“When would one use Random Forests over Gradient Boosted Machines (GBMs)?”问题的回答,几位博主就随机森林(Random Forests)与梯度提升机(Gradient Boosted Machines, GBMs)的适合场景以及优缺点展开了讨论。



三.机器学习常用库:


1.倚天遇到屠龙:LightGBM VS xgboost谁才是最强的梯度提升库?


摘要:很多人把XGBoost比作屠龙刀,LightGBM比作倚天剑,那么当倚天遇到屠龙,谁更强呢?


2.即学即用:Pandas入门与时间序列分析


摘要:这篇文章是Alexander Hendorf 在PyData Florence 2017上做的报告。报告前半部分主要为初学者介绍Pandas的基本功能,如数据输入/输出、可视化、聚合与选择与访问,后半部分主要介绍如何使用Pandas进行时间序列分析,源代码亲测可用。


3.俄罗斯最大搜索引擎Yandex开源了一款梯度提升机器学习库CatBoost


摘要:俄罗斯搜索巨头Yandex宣布,将向开源社区提交一款梯度提升机器学习库CatBoost。它能够在数据稀疏的情况下“教”机器学习。特别是在没有像视频、文本、图像这类感官型数据的时候,CatBoost也能根据事务型数据或历史数据进行操作。


4.Netflix开源面向稀疏数据优化的轻量级神经网络库Vectorflow


摘要:在Netflix公司,我们的机器学习科学家在多个不同的领域处理着各种各样的问题:从根据你的爱好来定制电视和推荐电影,到优化编码算法。我们有一小部分问题涉及到处理极其稀疏的数据;手头问题的总维度数很容易就能达到数千万个特征,即使每次要看的可能只是少数的非零项。


5.Python高性能计算库——Numba


摘要:在计算能力为王的时代,具有高性能计算的库正在被广泛大家应用于处理大数据。例如:Numpy,本文介绍了一个新的Python库——Numba, 在计算性能方面,它比Numpy表现的更好。


6.第二热门语言:从入门到精通,Python数据分析库大全


摘要:本文介绍了一些常见的用于数据分析任务的Python库,如Numpy、Pandas、Matplotlib、Scikit-learn以及BeautifulSoup等,这些工具库功能强大,便于上手。有了这些帮助,数据分析会变得分外简单。



转自:云栖社区


完整内容请点击“阅读原文”

登录查看更多
19

相关内容

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【经典书】人工智能及机器学习导论,457页pdf
专知会员服务
160+阅读 · 2020年7月5日
简明扼要!Python教程手册,206页pdf
专知会员服务
47+阅读 · 2020年3月24日
《迁移学习简明手册》,93页pdf
专知会员服务
134+阅读 · 2019年12月9日
【机器学习课程】机器学习中的常识性问题
专知会员服务
74+阅读 · 2019年12月2日
下载 | 100页机器学习入门完整版,初学者必备!
机器学习算法与Python学习
15+阅读 · 2018年12月18日
机器学习:从入门到绝不放弃!
图灵教育
5+阅读 · 2018年3月19日
机器学习自动文本分类
AI前线
23+阅读 · 2018年2月4日
机器学习新手必看10大算法
深度学习世界
4+阅读 · 2018年2月1日
最适合机器学习新手的10种算法
论智
9+阅读 · 2018年1月23日
Kaggle入门手册
Datartisan数据工匠
14+阅读 · 2017年11月9日
课程 | 12个适合机器学习入门的经典案例
入坑机器学习,这10个知识点你要了解!
THU数据派
5+阅读 · 2017年9月15日
入坑机器学习,十个知识点你不得不知
人工智能头条
7+阅读 · 2017年9月15日
Deep Co-Training for Semi-Supervised Image Segmentation
Revisiting CycleGAN for semi-supervised segmentation
Arxiv
3+阅读 · 2019年8月30日
Arxiv
8+阅读 · 2019年3月28日
Arxiv
5+阅读 · 2018年9月11日
Arxiv
3+阅读 · 2017年7月6日
VIP会员
相关VIP内容
【经典书】人工智能及机器学习导论,457页pdf
专知会员服务
160+阅读 · 2020年7月5日
简明扼要!Python教程手册,206页pdf
专知会员服务
47+阅读 · 2020年3月24日
《迁移学习简明手册》,93页pdf
专知会员服务
134+阅读 · 2019年12月9日
【机器学习课程】机器学习中的常识性问题
专知会员服务
74+阅读 · 2019年12月2日
相关资讯
下载 | 100页机器学习入门完整版,初学者必备!
机器学习算法与Python学习
15+阅读 · 2018年12月18日
机器学习:从入门到绝不放弃!
图灵教育
5+阅读 · 2018年3月19日
机器学习自动文本分类
AI前线
23+阅读 · 2018年2月4日
机器学习新手必看10大算法
深度学习世界
4+阅读 · 2018年2月1日
最适合机器学习新手的10种算法
论智
9+阅读 · 2018年1月23日
Kaggle入门手册
Datartisan数据工匠
14+阅读 · 2017年11月9日
课程 | 12个适合机器学习入门的经典案例
入坑机器学习,这10个知识点你要了解!
THU数据派
5+阅读 · 2017年9月15日
入坑机器学习,十个知识点你不得不知
人工智能头条
7+阅读 · 2017年9月15日
Top
微信扫码咨询专知VIP会员