成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
华为AI再进化,CANN 3.0释放「算力狂魔」
2020 年 8 月 14 日
新智元
新智元报道
编辑:白峰、梦佳
【新智元导读】
如今,AI已经进入了全面落地的阶段,但未来想要让AI真正像水和电一样无处不在,还面临着巨大的鸿沟。为了解决算力成本高、模型开发效率低的问题,华为专门设计了异构计算架构CANN 3.0。
最近,火遍全球的GPT3,有1750亿个参数,解锁各项技能,和人类对话,无所不能。
GPT-3正是AI崛起,突飞猛进的最佳例证。
但在众人惊叹之时,却不知道,
训练他Open AI可是花费了460万美元。
如果不是以API的方式开放给普通用户使用,这个NLP神器可不是大家都能玩的起的。
AI训练的高成本、算力的昂贵,导致了这种意义上的开发只是科技大佬们展示技术实力的专利,在大众心中,AI仿佛只是看上去很美。
如今,AI已经进入了全面落地的阶段,未来想要让AI真正像水和电一样无处不在,还面临着重大的鸿沟。除了高成本,从模型开发到商用也还有很大的距离,各场景下的AI算法已经比较成熟,但是模型迁移适配要耗费的人力物力太多。
华为昇腾计算业务总裁许映童表示,目前的AI应用普遍存在一个问题,训练侧和推理侧的设备相互独立,业务流程分割,很多环节需要人为干预,开发成本的提升,几乎抵消掉了AI带来的便利。
而且场景多种多样,设备各异,导致AI融入实际应用的门槛很高,比如说用终端开发的AI应用在云端就有可能不兼容。
那有没有通用的方法可以实现全场景的高效开发?
华为的野望:异构计算架构CANN 3.0,全场景AI走起
为了解决算力成本高、模型开发效率低的问题,昇腾专门设计了异构计算架构CANN 3.0。
早在2018年10月10日,华为在全联接大会上发布AI战略时,就发布了异构计算架构CANN 1.0,CANN 3.0已经是第三个版本了,目前已经统一了编程架构,做到了端边云全场景协同。
CANN 1.0注重边缘侧的推理,让终端应用的推理速度更快。
CANN 2.0打通了数据中心和训练端,提高了训练的效率。
CANN 3.0全场景都具备极强的伸缩性和可适应性,让开发者不用再纠结终端是手机、摄像头还是机器人,也不用关心硬件使用了哪种操作系统,Linux、Android、鸿蒙OS都没有问题。
目前CANN 3.0已经覆盖10+操作系统和14+智能终端设备,一次编写代码,就能实现端边云全场景复用,极大提升了开发效率。
那CANN 3.0相比之前的两个版本,有哪些优势呢?
软硬件解耦,一套代码通全关
高性能的AI开发一定是软硬协同设计的,像谷歌的TensorFlow在自家的TPU上性能是要好于英伟达GPU的,这种软硬件高度耦合的模式虽然效率高,也有缺点,某个TPU上表现优异的模型换个硬件可能就「哑火」了。
而CANN 3.0的代码是普适的,对端、边、云全场景下的训练、推理硬件没有特定依赖,它为用户提供了丰富的算子库和难易结合的编程方法,开发一套代码,就能在各种终端硬件上复用,性能还可以发挥到最好。
指令级算子开发满足高手的性能控制欲
说到算子开发,CANN 3.0为了满足不同水平的AI开发者需求,支持普通和专业两种算子开发模式。
对普通开发者,建议使用TBE-DSL。DSL可自动实现数据切分和调度,覆盖了70%的算子,开发者只需关注计算如何实现,调用已有的算子即可,将算子开发时间降低70%。
而对性能有极致追求的高级开发者,可以通过TBE-TIK实现指令级编程和调优过程,可覆盖全部算子,如果开发者对底层原理比较熟悉,这种方式可以进一步挖掘硬件的计算潜力。
不论升级到哪个版本,CANN 3.0都可以继续使用
花很大精力对算子进行了优化,突然有一天CANN升级到4.0了,代码是不是就失效了?
CANN 3.0充分考虑了软件的生命周期。
在顶层提供了昇腾统一编程接口AscendCL,将API进行了归一化,即使CANN升级到4.0、5.0版本,基于CANN 3.0开发的代码依旧可以使用。
许映童表示,CANN升级后,老版本代码最多需要重新编译下,而无需修改,简直是开发人员的福音。
后向兼容,对CANN的研发人员是极大的挑战。CANN 3.0做了后向兼容,让用户享受到最新的性能提升的同时,还可节省开发成本,保证了软件的持久生命力。「把复杂留给自己,把简单留给客户」也是昇腾一直坚持的产品理念。
如何释放算力狂魔?指挥官CANN 3.0还可以「上下兼容」
除了高效开发,CANN还打通了AI算法和计算优化的「任督二脉」。
TensorFlow的开放性以及完善的社区建设,以及对多种不同硬件平台的支持,让谷歌在AI模型开发框架上占据了相当大的优势。
除了TensorFlow,PyTorch、Caffe、Mxnet等开发框架也有很多厂商在用,尤其PyTorch,大有超越TensorFlow的趋势,学术界很多先进的模型都是使用PyTorch开发。
这样就有个问题,不同框架开发的模型,在不同的系统、不同的设备上不能通用,需要二次开发,ONNX类似的工具虽然可以支持不同框架的模型,但这些非原生工具会遇到各种各样的bug,还无法溯源。
在实验室中很多SOTA模型是用PyTorch写的,但是到部署端的架构只支持TensorFlow,就需要重写模型,效率很低。
但每个框架都有自己的优点,TF性能稳定、PyTorch的动态图很灵活、Mxnet有很多成体系的视觉算法库,所以AI算法层面最好能兼容它们。
AI计算平台的核心能力构建包括两方面:上层的AI算法和下层的高性能计算。
CANN 3.0上可以接各种深度学习编程框架的AI算法,下可以加速昇腾全系列AI芯片的训练和推理速度,是昇腾的真核心。那么CANN 3.0是如何实现芯片加速的?
过去几年,英伟达能在AI计算领域大展拳脚,很大程度上得益于CUDA和cuDNN等加速插件库,而CANN就是昇腾系列的「CUDA」。
CANN 3.0通过AscendCL提供 Device 管理、Context 管理、Stream 管理、内存管理、模型加载与执行、算子加载与执行、媒体数据处理等 C++ API 库供用户开发深度神经网络应用,用户可以用任何第三方框架调用这些API库,而无需关心计算资源优化的问题。
那CANN 3.0如何实现的计算资源智能分配?
神经网络可看作一张张的图,过去大部分图在HostCPU执行,如今昇腾的图编译器,实现了整图下沉,图和算子均可在Device侧执行,减少了芯片与Host CPU的交互时间,从而更充分地发挥昇腾芯片的算力。
像TF搭建的神经网络都是一张张计算图,过去这些图都在HostCPU中执行,资源允许的时候整个图都在HostCPU中执行效率是很高的,但是资源有限的情况就需要Device侧协同处理,也就是昇腾加速卡中,通过把整张图下沉到Device中,可以高效协同CPU完成计算。
根据图的特点和计算资源的分配情况,CANN可以自动进行图的拆分和融合,尽量减少和HostCPU的交互,交互少了,计算资源就能持续保持高强度运转。
数据Pipeline智能优化极大提升了数据资源处理效率,通过人工智能实现数据的自动切分与智能分配流水,以最大化个体计算单元的使用率,从而提高计算效率。
除了图自动编译和图的拆分融合优化,CANN 3.0的1000+算子库让你的神经网络「瞬时」加速。
强如英伟达,cuDNN也只有一百多个算子,CANN 3.0不仅包括了常用的Caffe 及 TF 算子,还独立提供各种加速库,这些加速库可通过 ACL统一编程接口实现,如矩阵乘接口等。
CANN 3.0现在的架构功能十分完善,对外提供适配不同硬件、不同 OS 的驱动,支持GPU+CPU异构通信,对内可实现Stream、内存等底层管理,丰富的加速库支持算子/标量/向量等通用计算,能高效完成图像和视频数据的预处理,执行引擎为深度神经网络计算提供了执行上的保障。
给AI硬件插上翅膀,CANN 3.0打开算力「潘多拉魔盒」
有了CANN 3.0保驾护航,在主流推理场景,昇腾AI推理卡Atlas 300I性能得到大幅提升。
要验证推理性能,多路高清视频分析的场景再合适不过了,高清视频本身流量大,加上多路融合更考验计算平台的并发处理能力,实测表明单张Atlas 300I推理卡可同时处理80路1080p、25FPS的高清视频,是当前市面上同类推理卡路数的2倍。
对交通、安防等场景来说,需要同时处理的视频路数就更多了,少则几百,多则上万,如果单卡能处理更多的任务,规模化应用时成本优势就会扩大,而且硬件数量少了更容易部署。所以很多人工智能厂商,正基于昇腾AI推理卡打造极致性能的高路数视频分析解决方案。
在训练端华为也有高密度「算力狂魔」,实测表明,Atlas 800在多个模型的训练中都优于业界新品训练服务器,平均性能领先业界2.5倍。
可以看到,昇腾的训练卡和推理卡「单兵」作战能力极强,如果把它们集结起来能成为一支算力特种部队吗?
「指挥官」CANN说:可以。
受机器间通信能力的影响,多个机器同时处理一个任务时,如果计算资源分配不好,总体性能会大打折扣。CANN要做的就是分配给「单兵」任务,让它们能高效协同作战,事实也证明经过L2网络与CANN的联合「指挥」优化,昇腾AI集群实现了1+1>2的性能提升,远超友军。
CANN 3.0不仅降低了各个领域使用昇腾芯片开发应用的难度,还提供了很多优秀的中间件和基础库使能各个厂商,但面对谷歌、英伟达、英特尔等国际巨头的强力竞争,想要生存下去,还是要构建一个完整的生态,为学术界和产业界贡献更多算力,为合作伙伴创造更多价值。
CANN「不是一个人在战斗」,还有开发者的AK47
CANN并不是单打独斗,光有一个计算架构也建立不了AI计算的生态。
今年3月份,华为开源了MindSpore,这是一款支持端边云全场景的AI框架,可广泛应用于计算机视觉、自然语言处理等AI领域。
使用MindSpore可以显著减少训练时间和成本,用最少的资源实现最高的效能,MindSpore原生支持昇腾AI处理器,让AI模型开发更加简洁高效。
在刚刚过去的HAI大会上,华为昇腾正式发布了昇腾应用使能MindX,它包括了Atlas深度学习平台MindX DL、Atlas智能边缘平台MindX Edge、优选模型库ModelZoo和各种行业SDK。
MindX DL通过数据中心设备与计算资源统一管理与调度,可以在计算集群上快速搭建起商用深度学习系统,许映童说,有需求的用户以此为基础,进行简单二次开发就可以满足业务需求,快速上线。
MindX Edge是面向推理端的平台,可以实现轻量化部署,支持摄像头、无人机等多种形态的推理硬件。
ModelZoo和行业SDK包含大量的主流的模型,能帮助开发人员迅速构建多场景下的AI应用。
这么多的平台和工具,从模型到算子到行业SDK,如果每个环节都要自己搭建开发环境,CANN、MindSpore、MindX的开发优势将荡然无存,所以华为推出了一个全流程工具链MindStudio 2.0,有了它,所有的开发工作都能在一个环境下完成并且支持一键部署。
正如华为昇腾计算业务CTO周斌所说,
「MindStudio才是开发者的AK47」!
你的盒子枪可以扔了。
根据中国《新一代人工智能发展规划》,到2030年,将带动人工智能相关产业规模超过10万亿元。如此大的产业规模,所需的算力会远远超过1750亿参数的GPT-3,而昇腾AI计算平台会填补这个「算力真空」,赋能千行百业,为AI提供无处不在的算力,昇腾AI未来可期!
登录查看更多
点赞并收藏
0
暂时没有读者
1
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
异构计算
关注
2
【ECCV2020-华为】车道线架构搜索框架
专知会员服务
23+阅读 · 2020年9月23日
TensorFlowLite:端侧机器学习框架
专知会员服务
33+阅读 · 2020年8月27日
【实用书】Python编程,140页pdf
专知会员服务
43+阅读 · 2020年8月20日
面向 AI 的数据管理技术综述
专知会员服务
46+阅读 · 2020年8月20日
一图搞定ML!2020版机器学习技术路线图,35页ppt
专知会员服务
94+阅读 · 2020年7月28日
华为发布《自动驾驶网络解决方案白皮书》
专知会员服务
129+阅读 · 2020年5月22日
【微众银行】联邦学习白皮书_v2.0,48页pdf,
专知会员服务
168+阅读 · 2020年4月26日
工程领域大数据和人工智能原则
专知会员服务
125+阅读 · 2020年3月26日
Yann Lecun 纽约大学《深度学习(PyTorch)》课程(2020)PPT
专知会员服务
182+阅读 · 2020年3月16日
《工业互联网平台白皮书》(2019讨论稿),80页PDF,工业互联网产业联盟编
专知会员服务
76+阅读 · 2019年11月9日
腾讯未来城市图景WeCity发布,70页PPT详解智慧城市进化之道 | 附报告下载
腾讯研究院
14+阅读 · 2019年11月7日
与 TensorFlow 功能互补的腾讯 angel 发布 3.0 :高效处理千亿级别模型
AI科技评论
11+阅读 · 2019年8月28日
DARPA | 世界上最大的“5G+AI+仿真”探索项目
走向智能论坛
30+阅读 · 2019年7月29日
当 AI 全面实现认知智能时,机器人还只是机器吗?
未来产业促进会
5+阅读 · 2019年5月9日
2018 NLP领域持续火爆,厂商挖空心思寻找落地场景
雷锋网
3+阅读 · 2018年9月3日
专访旷视副总裁彭广平:旷视为何选择收购艾瑞思?
AI100
3+阅读 · 2018年8月28日
大伽「趣」说AI:腾讯云在多个场景中的AI落地实践
人工智能头条
4+阅读 · 2018年8月1日
智能语音成“AI四大项目” 千亿市场待开发
IT时报
3+阅读 · 2017年11月26日
【物联网】5G时代的智能边缘计算AI-EC平台
产业智能官
6+阅读 · 2017年10月9日
王海峰首谈百度AI战略布局(PPT)
新智元
3+阅读 · 2017年9月15日
Learning Optimal Representations with the Decodable Information Bottleneck
Arxiv
6+阅读 · 2020年9月27日
Unsupervised Domain Clusters in Pretrained Language Models
Arxiv
11+阅读 · 2020年4月5日
ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
Arxiv
11+阅读 · 2019年10月30日
Scene-based Factored Attention for Image Captioning
Arxiv
4+阅读 · 2019年8月7日
TextMountain: Accurate Scene Text Detection via Instance Segmentation
Arxiv
4+阅读 · 2018年11月30日
Physical Primitive Decomposition
Arxiv
4+阅读 · 2018年9月13日
BoxNet: Deep Learning Based Biomedical Image Segmentation Using Boxes Only Annotation
Arxiv
4+阅读 · 2018年6月2日
Single-Shot Object Detection with Enriched Semantics
Arxiv
11+阅读 · 2018年4月8日
Interpretable R-CNN
Arxiv
4+阅读 · 2017年11月14日
Fluency-Guided Cross-Lingual Image Captioning
Arxiv
3+阅读 · 2017年8月15日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
异构计算
算力
AI
GPT3
华为
API
相关VIP内容
【ECCV2020-华为】车道线架构搜索框架
专知会员服务
23+阅读 · 2020年9月23日
TensorFlowLite:端侧机器学习框架
专知会员服务
33+阅读 · 2020年8月27日
【实用书】Python编程,140页pdf
专知会员服务
43+阅读 · 2020年8月20日
面向 AI 的数据管理技术综述
专知会员服务
46+阅读 · 2020年8月20日
一图搞定ML!2020版机器学习技术路线图,35页ppt
专知会员服务
94+阅读 · 2020年7月28日
华为发布《自动驾驶网络解决方案白皮书》
专知会员服务
129+阅读 · 2020年5月22日
【微众银行】联邦学习白皮书_v2.0,48页pdf,
专知会员服务
168+阅读 · 2020年4月26日
工程领域大数据和人工智能原则
专知会员服务
125+阅读 · 2020年3月26日
Yann Lecun 纽约大学《深度学习(PyTorch)》课程(2020)PPT
专知会员服务
182+阅读 · 2020年3月16日
《工业互联网平台白皮书》(2019讨论稿),80页PDF,工业互联网产业联盟编
专知会员服务
76+阅读 · 2019年11月9日
热门VIP内容
开通专知VIP会员 享更多权益服务
集中兵力悖论:人工智能时代的兵力集结之道
《云边计算中加速器虚拟化技术研究》187页
以色列成功测试升级版铁穹防御系统并强化多层次防御阵列性能
美军2025最新条令《人工智能》
相关资讯
腾讯未来城市图景WeCity发布,70页PPT详解智慧城市进化之道 | 附报告下载
腾讯研究院
14+阅读 · 2019年11月7日
与 TensorFlow 功能互补的腾讯 angel 发布 3.0 :高效处理千亿级别模型
AI科技评论
11+阅读 · 2019年8月28日
DARPA | 世界上最大的“5G+AI+仿真”探索项目
走向智能论坛
30+阅读 · 2019年7月29日
当 AI 全面实现认知智能时,机器人还只是机器吗?
未来产业促进会
5+阅读 · 2019年5月9日
2018 NLP领域持续火爆,厂商挖空心思寻找落地场景
雷锋网
3+阅读 · 2018年9月3日
专访旷视副总裁彭广平:旷视为何选择收购艾瑞思?
AI100
3+阅读 · 2018年8月28日
大伽「趣」说AI:腾讯云在多个场景中的AI落地实践
人工智能头条
4+阅读 · 2018年8月1日
智能语音成“AI四大项目” 千亿市场待开发
IT时报
3+阅读 · 2017年11月26日
【物联网】5G时代的智能边缘计算AI-EC平台
产业智能官
6+阅读 · 2017年10月9日
王海峰首谈百度AI战略布局(PPT)
新智元
3+阅读 · 2017年9月15日
相关论文
Learning Optimal Representations with the Decodable Information Bottleneck
Arxiv
6+阅读 · 2020年9月27日
Unsupervised Domain Clusters in Pretrained Language Models
Arxiv
11+阅读 · 2020年4月5日
ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
Arxiv
11+阅读 · 2019年10月30日
Scene-based Factored Attention for Image Captioning
Arxiv
4+阅读 · 2019年8月7日
TextMountain: Accurate Scene Text Detection via Instance Segmentation
Arxiv
4+阅读 · 2018年11月30日
Physical Primitive Decomposition
Arxiv
4+阅读 · 2018年9月13日
BoxNet: Deep Learning Based Biomedical Image Segmentation Using Boxes Only Annotation
Arxiv
4+阅读 · 2018年6月2日
Single-Shot Object Detection with Enriched Semantics
Arxiv
11+阅读 · 2018年4月8日
Interpretable R-CNN
Arxiv
4+阅读 · 2017年11月14日
Fluency-Guided Cross-Lingual Image Captioning
Arxiv
3+阅读 · 2017年8月15日
大家都在搜
用户画像
量化交易
大型语言模型
斯坦福博士论文
CVPR2025最新
MMMia
锂电池
t-sne
银行
“跨越险阻2018”挑战赛中
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top