数据科学领域常用的Python库

2018 年 3 月 6 日 数据分析 刘岩、朝乐门

近年来,Python已成为数据科学家的主要工具之一。本文概述了数据科学家及工程师们最常用的Python库。




1. 核心库(Core Libraries)



1.1 Numpy



Numerical Python的简称,包含Python多维数组及矩阵操作方面的大量实用功能,用于矢量化数组运算,显著提高了执行速度,改善了性能。


1.2 Scipy


科学及工程软件库,包含线性代数、优化、集成、统计等功能。它的主要功能基于Numpy库,因此其中数组操作大量应用了Numpy库。


1.3 Pandas



包含Series及DataFrame两种特殊的数据结构,用于快捷的数据处理、聚合和可视化,尤其可以灵活处理缺失数据及数据分组。





2. 绘图及可视化



2.1 Matplotlib



Python中最常用的可视化库,由此可与MatLab、Mathematica等科学工具相提并论。它可以进行多种基本图形的可视化操作,并且包含标签、网格、图例等多种进行实体格式化的工具。


2.2 Seaborn



Seaborn主要用于统计模型的可视化,比如热力图等,可以对数据进行概述的同时描绘整体分布。Seaborn基于Matplotlib实现,并高度依赖于后者。


2.3 Bokeh



Bokeh库旨在进行交互式可视化,并且不依赖于Matplotlib,主要通过浏览器以“数据驱动文档”(Data-Driven Documents,d3.js)的形式演示。


2.4 Basemap



Basemap库通过使用Matplotlib中的坐标,为Matplotlib提供了简易地图的支持。Folium库在Basemap的基础上构建,可以制作交互式的Web地图,这类似于使用Bokeh创建的JavaScript小部件。


2.5 Plotly



Poltly库是一个基于Web、用于数据可视化的工具集,通过一系列API接口用于Python等编程语言的实现。plot.ly网站上展示了许多强大的图形。


2.6 NetworkX



NetworkX库用于复杂社会网络的分析。它可以处理标准数据格式及非标准数据格式,这使其具备高效性和可扩展性。






3. 机器学习



3.1 SciKit-Learn



SciKit-Learn为常见的机器学习算法提供了简洁而一致的界面,使得机器学习更容易应用于生产系统。它结合了高质量的代码和应用文档,具备易用性和高性能,事实上已成为使用Python进行机器学习的行业标准。


3.2 TensorFlow



TensorFlow库由谷歌工作人员开发,是一个数据流图计算的开源库,在机器学习方面的应用表现优越。主要特点是多层节点系统,可以在大型数据集上快速训练人工神经网络。这使得谷歌的语音识别和图像识别成为可能。


3.3 Theano



Theano库主要用于机器学习的需要,它定义了类似于Numpy的多维数组,以及数据操作和表达,在低级别操作上与Numpy结合紧密。Theano库经过了编译,优化了GPU和CPU的使用,在数据密集型计算方面性能更高,结果也更精确。


3.4 Keras



Keras库是用Python编写、用于高级界面中神经网络构建的开源库,具有可扩展性和高度模块化。它使用Theano或TensorFlow作为后端,目前微软正努力将CNTK(微软的认知工具包)作为新的后端。它设计简约,旨在通过构建紧凑型系统进行快速简单的实验。它的基本思想是基于层次的,其他一切都是围绕它们建立的。数据准备为张量形式,第一层负责张量输入,最后一层负责输出,模型置于两者之间。






4. 自然语言处理、数据挖掘及统计分析



4.1 NLTK



Natural Language Toolkit的简称,用于符号和统计自然语言处理等一般任务。NLTK包括许多功能,比如文本标记、分类、名称实体标识、建立显示句子间及句子间依赖性的语料树、词干、语义推理等。所有的构建块允许为不同的任务构建复杂的研究系统,比如情感分析、自动汇总等。


4.2 Gensim



Gensim是一个Python的开源库,为更高效地处理大文本数据而设计,实现了向量空间建模和主题建模。Gensim主要用于原始的、非结构化的数字文本处理,实现了层次Dirichlet过程(HDP)、潜在语义分析(LSA)、隐含Dirichlet分布(LDA)以及tf-idf、随机投影、word2vec、document2vec等算法,以分析语料集中重复文本出现的模式。所有算法都是无监督的,只需要输入语料库。


4.3 Scrapy



Scrapy是用于制作抓取程序的库,也被称为蜘蛛机器人,可用于网络中检索结构化数据,比如关联信息或URL。它的界面设计遵循著名的“不要重复自己”原则——它提示用户编写可重用的通用代码,以便构建和扩展大型爬虫。Scrapy的结构围绕Spider类构建,其内部封装了爬虫所遵循的指令集。


4.4 Pattern



Pattern库将Scrapy库和NLTK库的功能结合在一个大型库中,被设计为用于Web挖掘、自然语言处理、机器学习和网络分析的解决方案。其内部工具有网络爬虫;用于谷歌、推特和维基百科的API;解析树、情感分析等文本分析算法。


4.5 Statsmodels



Statsmodels库主要用于统计分析,通过应用统计模型估计方法进行数据探索,并进行推断分析。它使用的模型包括线性回归模型、广义线性模型、离散选择模型、时间序列分析模型等,还提供了大量统计分析方面的绘图功能。



END


参考文献:

  • https://activewizards.com/blog/top-15-libraries-for-data-science-in-python/

  • https://www.datasciencelearner.com/machine-learning-library-python/

  • https://www.business2community.com/brandviews/upwork/15-python-libraries-data-science-01584664   

注:图片源于网络。

END

版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。


关联阅读:

原创系列文章:

1:从0开始搭建自己的数据运营指标体系(概括篇)

2 :从0开始搭建自己的数据运营指标体系(定位篇)

3 :从0开始搭建自己的数据运营体系(业务理解篇)

4 :数据指标的构建流程与逻辑

5 :系列 :从数据指标到数据运营指标体系

6:   实战 :为自己的公号搭建一个数据运营指标体系

7:  从0开始搭建自己的数据运营指标体系(运营活动分析)

数据运营 关联文章阅读:  

运营入门,从0到1搭建数据分析知识体系    

推荐 :数据分析师与运营协作的9个好习惯

干货 :手把手教你搭建数据化用户运营体系

推荐 :最用心的运营数据指标解读

干货 : 如何构建数据运营指标体系

从零开始,构建数据化运营体系

干货 :解读产品、运营和数据三个基友关系

干货 :从0到1搭建数据运营体系

数据分析、数据产品 关联文章阅读:

干货 :数据分析团队的搭建和思考

关于用户画像那些事,看这一文章就够了

数据分析师必需具备的10种分析思维。

如何构建大数据层级体系,看这一文章就够了

干货 : 聚焦于用户行为分析的数据产品

如何构建大数据层级体系,看这一文章就够了

80%的运营注定了打杂?因为你没有搭建出一套有效的用户运营体系

从底层到应用,那些数据人的必备技能

读懂用户运营体系:用户分层和分群

做运营必须掌握的数据分析思维,你还敢说不会做数据分析

登录查看更多
0

相关内容

Matplotlib是Python最著名的数据可视化工具包,有了它,一些统计上常用的图形如折线图、散点图、直方图等都可以用简单的几行Python代码实现。
【实用书】Python机器学习Scikit-Learn应用指南,247页pdf
专知会员服务
264+阅读 · 2020年6月10日
【干货书】用于概率、统计和机器学习的Python,288页pdf
专知会员服务
287+阅读 · 2020年6月3日
【实用书】Python技术手册,第三版767页pdf
专知会员服务
234+阅读 · 2020年5月21日
Python导论,476页pdf,现代Python计算
专知会员服务
259+阅读 · 2020年5月17日
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
338+阅读 · 2020年3月17日
【经典书】Python数据数据分析第二版,541页pdf
专知会员服务
192+阅读 · 2020年3月12日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
212+阅读 · 2020年2月21日
盘一盘 Python 系列 8 - Sklearn
平均机器
5+阅读 · 2019年5月30日
Python奇淫技巧,5个数据可视化工具
机器学习算法与Python学习
7+阅读 · 2019年4月12日
Python数据可视化2018:为什么这么多的库?
Python程序员
4+阅读 · 2019年1月2日
推荐一些适合小白练手的Python项目
数据挖掘入门与实战
6+阅读 · 2018年5月17日
一文梳理数据科学家必备核心算法与常用模型
THU数据派
16+阅读 · 2018年5月10日
Python 杠上 Java、C/C++,赢面有几成?
CSDN
6+阅读 · 2018年4月12日
福利 | 当Python遇上大数据与机器学习,入门so easy!
GitHub最著名的20个Python机器学习项目!
深度学习世界
9+阅读 · 2018年1月8日
推荐|2017年最受数据科学欢迎的Top15个Python库!
全球人工智能
8+阅读 · 2017年10月28日
Embedding Logical Queries on Knowledge Graphs
Arxiv
3+阅读 · 2019年2月19日
Deep Randomized Ensembles for Metric Learning
Arxiv
5+阅读 · 2018年9月4日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
Relational recurrent neural networks
Arxiv
8+阅读 · 2018年6月28日
Arxiv
3+阅读 · 2018年4月5日
Arxiv
8+阅读 · 2018年1月19日
VIP会员
相关VIP内容
【实用书】Python机器学习Scikit-Learn应用指南,247页pdf
专知会员服务
264+阅读 · 2020年6月10日
【干货书】用于概率、统计和机器学习的Python,288页pdf
专知会员服务
287+阅读 · 2020年6月3日
【实用书】Python技术手册,第三版767页pdf
专知会员服务
234+阅读 · 2020年5月21日
Python导论,476页pdf,现代Python计算
专知会员服务
259+阅读 · 2020年5月17日
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
338+阅读 · 2020年3月17日
【经典书】Python数据数据分析第二版,541页pdf
专知会员服务
192+阅读 · 2020年3月12日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
212+阅读 · 2020年2月21日
相关资讯
盘一盘 Python 系列 8 - Sklearn
平均机器
5+阅读 · 2019年5月30日
Python奇淫技巧,5个数据可视化工具
机器学习算法与Python学习
7+阅读 · 2019年4月12日
Python数据可视化2018:为什么这么多的库?
Python程序员
4+阅读 · 2019年1月2日
推荐一些适合小白练手的Python项目
数据挖掘入门与实战
6+阅读 · 2018年5月17日
一文梳理数据科学家必备核心算法与常用模型
THU数据派
16+阅读 · 2018年5月10日
Python 杠上 Java、C/C++,赢面有几成?
CSDN
6+阅读 · 2018年4月12日
福利 | 当Python遇上大数据与机器学习,入门so easy!
GitHub最著名的20个Python机器学习项目!
深度学习世界
9+阅读 · 2018年1月8日
推荐|2017年最受数据科学欢迎的Top15个Python库!
全球人工智能
8+阅读 · 2017年10月28日
Top
微信扫码咨询专知VIP会员