对于 Python 的科学计算有哪些提高运算速度的技巧?

2017 年 11 月 5 日 全球人工智能 霍华德

——免费加入AI技术专家社群>>

——免费加入AI高管投资者群>>

问题:最近在用 Python 做科学计算,但是被 Python 的运行速度所困扰。矩阵运算也很慢,想征求下大家的建议。有什么优化 Python 科学计算的方法么?或者对于科学计算的语言有什么推荐么?


回答:

说到矩阵运算,最简单的粗暴的就是三重循环直接遍历:

def matrix_multiplication_loop(A,B):    m = A.shape[0]    n = A.shape[1]    l = B.shape[1]    C = np.zeros([m,l])    for i in xrange(m):        for j in xrange(l):            for k in xrange(n):                C += A[i][k]*B[k][j]    return C
A = np.random.random([300,12])
B = np.random.random([12,256])
%timeit C = matrix_multiplication_loop(A,B)
1 loop, best of 3: 2.22 s per loop

简直龟速了,可不可再快一点?当然,上numpy

%timeit C = np.dot(A,B)10000
loops, best of 3: 105 µs per loop

numpy还是牛牛哒,一下子快了2万倍~

可不可再快一点?当然,JIT听过吗?just in time-即时编译。我第一次听到这个词是在工业工程的精益制造里,它的含义是生产线上即时生产,需要什么马上预定什么,没有库存。numba就是just in time的一个编译器,让我们来试试:

import numba
@numba.autojit
def matrix_multiplication_numba(A,B):    return np.dot(A,B)
%timeit C = matrix_multiplication_numba(D,E)
10000 loops, best of 3: 55 µs per loop

又快了将近一倍~

可不可再快一点?当然,只是今天没时间了,未完待续。



numpy本身是非常优秀的,把速度优化就极佳了,要打败它并不容易,我们需要借助上古的力量C语言和blas库。cython是python里实现C语言的一座桥梁,下面是用cython实现的矩阵乘法:

%load_ext Cython
%%cython
#!python
#cython: boundscheck=False, wraparound=False, nonecheck=False
#cython: cdivision=Truefrom scipy.linalg.cython_blas cimport dgemm
cpdef void cython_blas_MatrixMul(double[::1,:] a, double[::1,:] b, double[::1,:] out, char* TransA, char* TransB) nogil:    cdef:        char* Trans='T'        char* No_Trans='N'        int m, n, k, lda, ldb, ldc        int col_a, col_b        double alpha, beta    #dimensions of input arrays    lda = a.shape[0]    col_a = a.shape[1]    ldb = b.shape[0]    col_b = b.shape[1]      ldc = m    alpha = 1.0    beta = 0.0    dgemm(TransA, TransB, &m, &n, &k, &alpha, &a[0,0], &lda, &b[0,0], &ldb, &beta, &out[0,0], &ldc)
%timeit cython_blas_MatrixMul(A,B,C,b"T",b"T")
100000 loops, best of 3: 9.34 µs per loop

厉害吧!又快了五倍,比最开始的实现方法已经快了20万倍!这性能也已经逼近C语言了。

可不可以再快一点?嘿嘿,当然!现在已经接近CPU的极限了,要更快我们就要买入GPU的世界了~

你们感兴趣,超过一百赞,我就写怎么使用python做GPU计算,让计算速度快破天际



谢谢大家捧场,这么快就过100赞了。来来来,让我们继续飙车~

GPU相比CPU并非在所有情况下都更快,小矩阵时,矩阵可以直接存储在CPU的cache里,CPU可以快速访问,这个时候CPU会比GPU快。但是当遇到大矩阵时,GPU的威力就显示出来了。让我们先把矩阵扩大一千倍来看看:

A = np.random.random([3000,1280])
B = np.random.random([1280,2560])
C = np.zeros([3000,2560])

先用numpy做baseline:

%timeit C = np.dot(A,B)
1 loop, best of 3: 582 ms per loop

可怕,一下子慢了5000倍。来试试,cython:

%timeit cython_blas_MatrixMul(A,B,C,b"T",b"T")
1 loop, best of 3: 280 ms per loop

快了一倍,可是还要280ms。让我们来试试GPU吧。先用pyculib走一波,pyculib是cuda在Python里的一个开源库,集成了cudablas一系列算法,非常好用:

from pyculib import blas
%timeit Cres = blas.gemm('N', 'N', alpha, A, B)
1 loop, best of 3: 140 ms per loop

哇塞,一下快了一倍,GPU果然厉害~

可不可以再快一点?那是必须的。tensorflow是Google开源的深度学习框架,矩阵方面内部优化很多:

import tensorflow as tf
A = tf.random_normal([3000,1280])
B = tf.random_normal([1280,2560])
C = tf.matmul(A,B)
with tf.Session() as sess:    %timeit result = sess.run(C)
100 loops, best of 3: 4.83 ms per loop

哇咔咔,比numpy快了100倍!tensorflow果然是Google的技术名不虚传!

这就是终点了吗?还能更快吗?答案是肯定的,我听NVIDIA的工程师说,如果你用C语言编写的cuDNN直接操作GPU指针还能比tensorflow快3倍~但那就脱离python的范畴了。看了这么多,有木有觉得计算机真是博大精深!勇敢的少年们,快来拥抱CS吧~


原文:https://www.zhihu.com/question/67310504/answer/252179088



热门文章推荐

黑科技|Adobe出图象技术神器!视频也可以PS了!!

厉害!旷视科技包揽 COCO、Places 三项世界冠军

Python的开源人脸识别库:离线识别率高达99.38%

全球研发开支排名:亚马逊第一,BATJ排不上号!

一篇文章讲清楚人工智能、机器学习和深度学习的区别和联系

黑科技|Adobe出图象技术神器!视频也可以PS了!!

史上第一个被授予公民身份的机器人索菲亚和人对答如流!

浙大90后女黑客在GeekPwn2017上秒破人脸识别系统!

周志华点评AlphaGo Zero:这6大特点非常值得注意!

汤晓鸥教授:人工智能让天下没有难吹的牛!

登录查看更多
0

相关内容

Python导论,476页pdf,现代Python计算
专知会员服务
259+阅读 · 2020年5月17日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
107+阅读 · 2020年5月3日
《代码整洁之道》:5大基本要点
专知会员服务
49+阅读 · 2020年3月3日
【新书】Python数据科学食谱(Python Data Science Cookbook)
专知会员服务
114+阅读 · 2020年1月1日
【新书】Python中的经典计算机科学问题,224页PDF
专知会员服务
52+阅读 · 2019年12月31日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
盘一盘 Python 系列 8 - Sklearn
平均机器
5+阅读 · 2019年5月30日
开发、调试计算机视觉代码有哪些技巧?
AI研习社
3+阅读 · 2018年7月9日
实战 | 用Python做图像处理(三)
七月在线实验室
15+阅读 · 2018年5月29日
在Python中使用SpaCy进行文本分类
专知
24+阅读 · 2018年5月8日
为什么你应该学 Python ?
计算机与网络安全
4+阅读 · 2018年3月24日
算法优化|梯度下降和随机梯度下降 — 从0开始
全球人工智能
8+阅读 · 2017年12月25日
一次 PyTorch 的踩坑经历,以及如何避免梯度成为NaN
干货| PyTorch相比TensorFlow,存在哪些自身优势?
全球人工智能
15+阅读 · 2017年10月4日
干货 | PyTorch相比TensorFlow,存在哪些自身优势?
全球人工智能
10+阅读 · 2017年9月30日
A General and Adaptive Robust Loss Function
Arxiv
8+阅读 · 2018年11月5日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
3+阅读 · 2018年3月13日
Arxiv
3+阅读 · 2018年2月22日
Arxiv
8+阅读 · 2018年1月25日
Arxiv
8+阅读 · 2018年1月19日
VIP会员
相关VIP内容
Python导论,476页pdf,现代Python计算
专知会员服务
259+阅读 · 2020年5月17日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
107+阅读 · 2020年5月3日
《代码整洁之道》:5大基本要点
专知会员服务
49+阅读 · 2020年3月3日
【新书】Python数据科学食谱(Python Data Science Cookbook)
专知会员服务
114+阅读 · 2020年1月1日
【新书】Python中的经典计算机科学问题,224页PDF
专知会员服务
52+阅读 · 2019年12月31日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
相关资讯
盘一盘 Python 系列 8 - Sklearn
平均机器
5+阅读 · 2019年5月30日
开发、调试计算机视觉代码有哪些技巧?
AI研习社
3+阅读 · 2018年7月9日
实战 | 用Python做图像处理(三)
七月在线实验室
15+阅读 · 2018年5月29日
在Python中使用SpaCy进行文本分类
专知
24+阅读 · 2018年5月8日
为什么你应该学 Python ?
计算机与网络安全
4+阅读 · 2018年3月24日
算法优化|梯度下降和随机梯度下降 — 从0开始
全球人工智能
8+阅读 · 2017年12月25日
一次 PyTorch 的踩坑经历,以及如何避免梯度成为NaN
干货| PyTorch相比TensorFlow,存在哪些自身优势?
全球人工智能
15+阅读 · 2017年10月4日
干货 | PyTorch相比TensorFlow,存在哪些自身优势?
全球人工智能
10+阅读 · 2017年9月30日
相关论文
A General and Adaptive Robust Loss Function
Arxiv
8+阅读 · 2018年11月5日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
3+阅读 · 2018年3月13日
Arxiv
3+阅读 · 2018年2月22日
Arxiv
8+阅读 · 2018年1月25日
Arxiv
8+阅读 · 2018年1月19日
Top
微信扫码咨询专知VIP会员