哥伦比亚大学教师同时也是著名机器学习Python包scikit-learn的主要贡献者Andreas Muller和Reonomy 公司数据科学家Sarah Guido的新书Python机器学习导论《Python机器学习导论》(Introduction to machine learning with Python)从实战角度出发带你用Python快速上手机器学习方法。随书同时提供代码和Jupyter Notebook,可以让你动手调试改进。
机器学习已经成为许多商业应用和研究项目的一个不可缺少的组成部分,但是这个领域并不是拥有大型研究团队大型公司的专属。如果您使用Python(即使是作为初学者)本书将教您如何构建自己的机器学习解决方案。如今我们可以方便的获取所有数据,而机器学习应用仅受限于您的想象力。
您将学习使用Python和scikit-learn库创建一个成功的机器学习应用程序所需的步骤。作者Andreas Muller和Sarah Guido将重点关注机器学习算法的实践方法,而不是背后繁杂的数学。对NumPy和matplotlib库的熟悉将帮助您从本书中获得更多。 有了这本书,你会学到:
该代码库包含Andreas Mueller和Sarah Guido即将出版的书“Python机器学习导论”的代码。 您可以在O'Reilly网站上找到有关该书的详细信息。
本书主要使用scikit-learn的开发版本,即0.18-dev。 本书的大部分内容也可以同样用于scikit-learn的早期版本,但是您需要调整model_selection模块的所有内容(主要是cross_val_score,train_test_split和GridSearchCV)
该代码库提供了书中的jupyter notebook代码,以及用于创建图形和数据集的helper函数的mglearn库。
回应好奇者,本书封面图片是一个(北美)大鲵鱼
除了aclImdb数据集之外,所有数据集都包含在代码库中,您可以从Andrew Maas的页面下载该数据集(http://ai.stanford.edu/~amaas/data/sentiment/)。 详细信息请参阅本书。
如果你遇到ImportError:No module named mglearn,你可以尝试在你的终端上使用命令pip install mglearn来安装mglearn到你的python环境中,或者在Jupyter Notebook中!pip install mglearn。
请注意,在列出导入python包时,本书的第一个版本缺少以下行:
from IPython.display import display 如果您看到涉及显示的错误,请添加此行。
本书的第一个版本使用了一个名为plot_group_kfold的函数。 由于在scikit-learn中被重命名了,这已经重命名为plot_label_kfold。
运行代码,你需要用到如下包: numpy, scipy, scikit-learn, matplotlib, pandas ,pillow。 一些决策树和神经网络结构的可视化也需要graphviz。
设置环境的最简单方法是安装Anaconda。
如果您已经设置了Python环境,并且正在使用conda软件包管理器,则可以通过运行下面的代码来获取所有软件包:
conda install numpy scipy scikit-learn matplotlib pandas pillow graphviz python-graphviz 您还需要安装graphiz C库,这是使用包管理器最简单的方法。 如果您使用的是OS X和或制软件,则可以安装graphviz。 如果你在Ubuntu或Debian上,你可以通过apt-get install graphviz安装。 在Windows上安装graphviz可能会非常棘手,建议使用conda / anaconda。
如果您发现电子书的错误,请通过O'Reilly网站提交。 你可以在这里提交固定的代码作为pull-requests,如果你也在这里提交它们,我会很感激的,因为这个版本库并不包含“master notebooks”。