利用pandas进行数据分析(一):Series和DataFrame数据结构

2017 年 12 月 12 日 数萃大数据 louwill

 对于Python而言,坊间早有这种说法:在有了 pandas之后,Python才算有了数据分析的能力。在此之前,要想用Python来做数据分析,可能就没那么友好了,可见pandas在学习数据分析时候的重要程度。对于 pandas来说,很多功能的实现也是要基于科学计算库 numpy的,所以 numpy+ pandas的组合在Python数据分析中就显得尤为关键。

    从本篇开始,小编就给大家详细讲解 pandas的基本用法和应用案例,熟悉R的朋友们也可以将其与R的数据分析功能进行对比,定能有所收获。本篇先对 pandas的数据结构进行介绍,跟R大不相同的是,Python并没有太多不同的数据结构和对象, pandas中主要包括 SeriesDataFrame两种数据结构。

Series

Series有点类似于 numpy中的一维数组对象,一般由一组数据和数据相关的标签或者索引构成,由一组数构成最简单的 Series如下:

  
    
    
    
  1. from numpy import *

  2. from pandas import *

创建 Series

  
    
    
    
  1. obj = Series([-1,3,-4,6])

  2. print(obj)

  3. 0   -1

  4. 1    3

  5. 2   -4

  6. 3    6

  7. dtype: int64

    可以看到的是,由一组数创建的 Series对象索引在左边,值在右边。我们也可以通过索引和值标签分别访问相应的对象:

  
    
    
    
  1. #Series对象值

  2. obj.values

  3. array([-1,  3, -4,  6], dtype=int64)

  4. #Series对象索引

  5. obj.index

  6. RangeIndex(start=0, stop=4, step=1)

当然,我们可以在创建Series对象的时候就对索引进行标记或者命名:

  
    
    
    
  1. #对Series索引进行命名或者标记

  2. obj2 = Series([-1,3,-4,6],index = ['a','b','c','d'])

  3. print(obj2)

  4. a   -1

  5. b    3

  6. c   -4

  7. d    6

  8. dtype: int64

  9. #查看索引

  10. obj2.index

  11. Index(['a', 'b', 'c', 'd'], dtype='object')

    根据 Series索引访问对象值:

  
    
    
    
  1. obj2['a']

  2. -1

  3. obj2[['a','b','c']]

  4. a   -1

  5. b    3

  6. c   -4

  7. dtype: int64

    也可以对Series对象进行数组运算:

  
    
    
    
  1. obj2[obj2 > 0]

  2. b    3

  3. d    6

  4. dtype: int64

  5. obj2*2

  6. a    -2

  7. b     6

  8. c    -8

  9. d    12

  10. dtype: int64

  11. np.exp(obj2)

  12. a      0.367879

  13. b     20.085537

  14. c      0.018316

  15. d    403.428793

  16. dtype: float64

    除了直接以数组形式创建 Series对象之外,通过字典来生成 Series也是较为普遍的做法:

  
    
    
    
  1. nba = {'Kobe Bryant':30.3,'Allen Iverson':29.4,'Tracy McGrady':30.1,'Vince Carter':25.6}

  2. obj3 = Series(nba)

  3. print(obj3)

  4. Allen Iverson    29.4

  5. Kobe Bryant      30.3

  6. Tracy McGrady    30.1

  7. Vince Carter     25.6

  8. dtype: float64

创建完之后可以对 Series对象和索引进行命名:

  
    
    
    
  1. obj3.name = 'nbastats'

  2. obj3.index.name = 'player'

  3. print(obj3)

  4. player

  5. Allen Iverson    29.4

  6. Kobe Bryant      30.3

  7. Tracy McGrady    30.1

  8. Vince Carter     25.6

  9. Name: nbastats, dtype: float64

另外, Series索引可以随时进行更改:

  
    
    
    
  1. obj3.index = ['A.Iverson','K.Bryant','T.McGrady','V.Carter']

  2. print(obj3)

  3. A.Iverson    29.4

  4. K.Bryant     30.3

  5. T.McGrady    30.1

  6. V.Carter     25.6

  7. Name: nbastats, dtype: float64

    除了上述创建 Series对象的方法以外,从 DataFrame中单独拿出一行也可以用来创建 Series。关于 Series数据结构的基本内容就介绍到这里,下面看 DataFrame

DataFrame

    说到 DataFrame,可能大家更熟悉的是R语言中的 data.frame,Python中的 DataFrame跟它也较为类似。在Python中, DataFrame是一个表格型的数据结构,它含有一组有序的列,每列的数据类型可以不一样,与R中的数据框相比,Python中的 DataFrame行列操作较为平衡。 构建DataFrame方法很多,最常用的是直接传入一个由等长列表或NumPy数组组成的字典:

  
    
    
    
  1. data = {'city':['LAL','HOU','PHI','TOR'],

  2.        'year':[1996,1997,1996,1997],

  3.        'score':[30.3,30.1,29.4,25.6]}

  4. frame = DataFrame(data)

  5. frame

  6.    city    score   year

  7. 0    LAL 30.3    1996

  8. 1    HOU 30.1    1997

  9. 2    PHI 29.4    1996

  10. 3    TOR 25.6    1997

    可以看到,字典在转化为数据框的过程中,键是作为列名而存在的。

  
    
    
    
  1. #按指定列进行排列

  2. DataFrame(data,columns=['year','city','score'])

  3.    year    city    score

  4. 0    1996    LAL 30.3

  5. 1    1997    HOU 30.1

  6. 2    1996    PHI 29.4

  7. 3    1997    TOR 25.6

    根据字典传入时,若是指定列找不到数据则会自动填补为缺失:

  
    
    
    
  1. #若传入的列找不到数据则会产生NA

  2. frame2 = DataFrame(data,columns=['year','city','score','assist'],

  3.                   index=[1,2,3,4])

  4. print(frame2)

  5.  year city  score assist

  6. 1  1996  LAL   30.3    NaN

  7. 2  1997  HOU   30.1    NaN

  8. 3  1996  PHI   29.4    NaN

  9. 4  1997  TOR   25.6    NaN

    如前述,我们可以通过 data.frame来获取一个 Series对象:

  
    
    
    
  1. frame2['city']

  2. 1    LAL

  3. 2    HOU

  4. 3    PHI

  5. 4    TOR

  6. Name: city, dtype: object

  7. frame2.score

  8. 1    30.3

  9. 2    30.1

  10. 3    29.4

  11. 4    25.6

  12. Name: score, dtype: float64

    也可以通过 loc方法访问 DataFrame的行:

  
    
    
    
  1. frame2.loc[3]

  2. year      1996

  3. city       PHI

  4. score     29.4

  5. assist     NaN

  6. Name: 3, dtype: object

    对缺失的变量进行重新赋值:

  
    
    
    
  1. frame2['assist']=5.6

  2. print(frame2)

  3. year city  score  assist

  4. 1  1996  LAL   30.3     5.6

  5. 2  1997  HOU   30.1     5.6

  6. 3  1996  PHI   29.4     5.6

  7. 4  1997  TOR   25.6     5.6

    按索引传入时,没有被指定的记录产生缺失:

  
    
    
    
  1. val = Series([4.5,3.9],index=[1,4])

  2. frame2['assist']=val

  3. print(frame2)

  4. year city  score  assist

  5. 1  1996  LAL   30.3     4.5

  6. 2  1997  HOU   30.1     NaN

  7. 3  1996  PHI   29.4     NaN

  8. 4  1997  TOR   25.6     3.9

    对于嵌套字典转化为 DataFrame,一般外层字典的键作为列,内层字典的键作为行索引:

  
    
    
    
  1. nba = {'kobe':{2005:35.6,2006:32.1},'McGrady':{2005:26.7,2006:24.3}}

  2. frame3 = DataFrame(nba)

  3. print(frame3)

  4. McGrady  kobe

  5. 2005     26.7  35.6

  6. 2006     24.3  32.1


    关于pandas的两种基本数据结构SeriesDataFrame,小编就暂且介绍到这里了,关于如何在实际的数据分析过程熟练使用这两种数据结构的基本操作,小编在后续的推文中会进一步的讲解。




参考资料:

python for data analysis




欢迎大家关注微信公众号:数萃大数据






课程公告

深度学习培训班【上海站】

时间:2017年12月23-24日

地点:上海创梦云实训创新中心

更多详情,请扫描下面二维码








登录查看更多
0

相关内容

【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
194+阅读 · 2020年6月29日
一份简明有趣的Python学习教程,42页pdf
专知会员服务
76+阅读 · 2020年6月22日
Python地理数据处理,362页pdf,Geoprocessing with Python
专知会员服务
113+阅读 · 2020年5月24日
Python导论,476页pdf,现代Python计算
专知会员服务
260+阅读 · 2020年5月17日
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
341+阅读 · 2020年3月17日
【经典书】Python数据数据分析第二版,541页pdf
专知会员服务
193+阅读 · 2020年3月12日
盘一盘 Python 系列 8 - Sklearn
平均机器
5+阅读 · 2019年5月30日
一文看懂怎么用 Python 做数据分析
大数据技术
24+阅读 · 2019年5月5日
文本分析与可视化
Python程序员
9+阅读 · 2019年2月28日
python数据分析师面试题选
数据挖掘入门与实战
6+阅读 · 2017年11月21日
学员笔记||Python数据分析之:numpy入门(一)
七月在线实验室
7+阅读 · 2017年9月28日
利用python操作Excel教程
Python技术博文
4+阅读 · 2017年9月13日
python pandas 数据处理
Python技术博文
4+阅读 · 2017年8月30日
python进行数据分析之数据聚合和分组运算
Python技术博文
3+阅读 · 2017年8月21日
Multi-Grained Named Entity Recognition
Arxiv
6+阅读 · 2019年6月20日
Embedding Logical Queries on Knowledge Graphs
Arxiv
3+阅读 · 2019年2月19日
Arxiv
3+阅读 · 2018年4月5日
Arxiv
3+阅读 · 2018年3月2日
VIP会员
相关VIP内容
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
194+阅读 · 2020年6月29日
一份简明有趣的Python学习教程,42页pdf
专知会员服务
76+阅读 · 2020年6月22日
Python地理数据处理,362页pdf,Geoprocessing with Python
专知会员服务
113+阅读 · 2020年5月24日
Python导论,476页pdf,现代Python计算
专知会员服务
260+阅读 · 2020年5月17日
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
341+阅读 · 2020年3月17日
【经典书】Python数据数据分析第二版,541页pdf
专知会员服务
193+阅读 · 2020年3月12日
相关资讯
盘一盘 Python 系列 8 - Sklearn
平均机器
5+阅读 · 2019年5月30日
一文看懂怎么用 Python 做数据分析
大数据技术
24+阅读 · 2019年5月5日
文本分析与可视化
Python程序员
9+阅读 · 2019年2月28日
python数据分析师面试题选
数据挖掘入门与实战
6+阅读 · 2017年11月21日
学员笔记||Python数据分析之:numpy入门(一)
七月在线实验室
7+阅读 · 2017年9月28日
利用python操作Excel教程
Python技术博文
4+阅读 · 2017年9月13日
python pandas 数据处理
Python技术博文
4+阅读 · 2017年8月30日
python进行数据分析之数据聚合和分组运算
Python技术博文
3+阅读 · 2017年8月21日
Top
微信扫码咨询专知VIP会员