Github项目推荐 | cuDF:加快数据处理流程的DataFrame库

2019 年 5 月 3 日 AI科技评论

AI 科技评论按,数据处理是数据工程师经常要面对的问题,今天要推荐的是一个和数据处理相关的 DataFrame 库——cuDF。

cuDF 是一个基于 Apache Arrow 列内存格式的数据帧库,它是一个 GPU DataFrame 库,可以进行加载,连接,聚合,过滤等数据操作。

cuDF 提供了类似 pandas 的 API,数据工程师和数据科学家都很熟悉它们,他们可以使用它轻松地加快工作流程,而无需深入了解 CUDA 编程的细节。

例如,以下代码段下载 CSV,然后使用 GPU 将其解析为行和列并运行计算:

import cudf, io, requests

from io import StringIO

url="
https://github.com/plotly/datasets/raw/master/tips.csv"

content = requests.get(url).content.decode('utf-8')

tips_df = cudf.read_csv(StringIO(content))
tips_df['tip_percentage'] = tips_df['tip']/tips_df['total_bill']*100


# display average tip by dining party size

print(tips_df.groupby('size').tip_percentage.mean())

得到的输出为:

size

1    21.729201548727808

2    16.571919173482897

3    15.215685473711837

4    14.594900639351332

5    14.149548965142023

6    15.622920072028379

Name: tip_percentage, dtype: float64

想查看更多示例,可以浏览的完整 API 文档(https://rapidsai.github.io/projects/cudf/en/latest/index.html),或查看更详细的说明(https://github.com/rapidsai/notebooks-extended)

那么如何安装这个工具?请参阅 Demo Docker Repository(https://hub.docker.com/r/rapidsai/rapidsai/),根据正在运行的 NVIDIA CUDA 版本选择一个标签。

安装

conda

cuDF 可以通过渠道安装 conda(miniconda,或完整的 Anaconda 发行版) rapidsai:

# for CUDA 9.2

conda install -c nvidia -c rapidsai -c numba -c conda-forge -c defaults \
   cudf=0.6 python=3.6 cudatoolkit=9.2


# or, for CUDA 10.0

conda install -c nvidia -c rapidsai -c numba -c conda-forge -c defaults \
   cudf=0.6 python=3.6 cudatoolkit=10.0

我们还提供从我们最新开发分支的尖端构建的夜间 conda 包。

Pip

cuDF 也可以用 PyPi 安装。

# for CUDA 9.2

python3.6 -m pip install cudf-cuda92==0.6


# or, for CUDA 10.0

python3.6 -m pip install cudf-cuda100==0.6

注意:只有 Linux 系统支持 cuDF,并且 Python 的版本必须是 3.6 或 3.7 版本。

via : 

https://github.com/rapidsai/cudf

点击阅读原文加入 Python 技术交流小组,与同行一起学习交流

登录查看更多
3

相关内容

IEEE图像处理事务涵盖了新颖的理论,算法和体系结构,可在各种应用中形成、捕获、处理、通信、分析和显示图像、视频和多维信号。感兴趣的主题包括但不限于数学、统计和感知建模、表示、形成、编码、过滤、增强、还原、渲染、半色调、搜索和分析图像、视频和多维信号。感兴趣的应用包括图像和视频通信、电子成像、生物医学成像、图像和视频系统以及遥感。 官网地址:http://dblp.uni-trier.de/db/journals/tip/
【2020新书】实战R语言4,323页pdf
专知会员服务
100+阅读 · 2020年7月1日
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
194+阅读 · 2020年6月29日
还在修改博士论文?这份《博士论文写作技巧》为你指南
【高能所】如何做好⼀份学术报告& 简单介绍LaTeX 的使用
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
161+阅读 · 2020年5月14日
【资源】100+本免费数据科学书
专知会员服务
107+阅读 · 2020年3月17日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
TensorFlow 2.0 学习资源汇总
专知会员服务
66+阅读 · 2019年10月9日
Github项目推荐 | Pytorch TVM 扩展
AI研习社
11+阅读 · 2019年5月5日
Github项目推荐 | pikepdf - Python的PDF读写库
AI研习社
9+阅读 · 2019年3月29日
Github项目推荐 | gensim - Python中的主题建模
AI研习社
15+阅读 · 2019年3月16日
Github项目推荐 | RecQ - Python推荐系统框架
AI研习社
8+阅读 · 2019年1月23日
Github 项目推荐 | 用 PyTorch 0.4 实现的 YoloV3
AI研习社
9+阅读 · 2018年8月11日
Arxiv
35+阅读 · 2019年11月7日
Deep Learning for Generic Object Detection: A Survey
Arxiv
13+阅读 · 2018年9月6日
Arxiv
13+阅读 · 2018年1月20日
Arxiv
3+阅读 · 2012年11月20日
VIP会员
相关VIP内容
【2020新书】实战R语言4,323页pdf
专知会员服务
100+阅读 · 2020年7月1日
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
194+阅读 · 2020年6月29日
还在修改博士论文?这份《博士论文写作技巧》为你指南
【高能所】如何做好⼀份学术报告& 简单介绍LaTeX 的使用
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
161+阅读 · 2020年5月14日
【资源】100+本免费数据科学书
专知会员服务
107+阅读 · 2020年3月17日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
TensorFlow 2.0 学习资源汇总
专知会员服务
66+阅读 · 2019年10月9日
相关资讯
Github项目推荐 | Pytorch TVM 扩展
AI研习社
11+阅读 · 2019年5月5日
Github项目推荐 | pikepdf - Python的PDF读写库
AI研习社
9+阅读 · 2019年3月29日
Github项目推荐 | gensim - Python中的主题建模
AI研习社
15+阅读 · 2019年3月16日
Github项目推荐 | RecQ - Python推荐系统框架
AI研习社
8+阅读 · 2019年1月23日
Github 项目推荐 | 用 PyTorch 0.4 实现的 YoloV3
AI研习社
9+阅读 · 2018年8月11日
Top
微信扫码咨询专知VIP会员