随着深度学习对人工智能的巨大推动,深度学习所构建的多层神经网络模型的参数空间已从百万级上升到百亿级,这对计算能力提出了新的挑战。
9月12日,阿里云正式推出了最新一代异构计算通用GPU实例GN5i规格族,面向深度学习的在线推理服务,可一键部署TensorFlow、Caffe等主流深度学习框架,提供智能调度、自动运维、实时扩容等服务,有效降低人工智能在线服务成本50%以上。
据悉,GN5i采用了NVIDIA Pascal架构P4图形处理器,提供最大11TFlops FP32单精度浮点计算能力和44Tops INT8整型计算能力,可在云端按需构建敏捷弹性的深度学习平台,满足人工智能所需要的深度学习推理低延时、高性价比要求。
自建GPU物理服务器经常会遇上扩容难、适配难的难题,GN5i规格族提供了灵活弹性的系列化配置,可以根据深度学习计算力的要求,按需选择合适的规格,分钟级即可完成实例的创建,并可根据运算力需求进行GPU实例的“Scale-out”水平扩容或“Scale-up”垂直变配。
深度学习的制胜法宝:吞吐量与延迟
机器学习是当前互联网行业发展最快、最令人兴奋的领域之一,而应用深度神经网络的深度学习则代表了机器学习中最前沿的部分。
深度学习的应用可以划分为两个阶段:模型训练学习和推理在线服务。
一个懵懂未知的学生到学校参加学习——可将其看作是深度神经网络经历的「学习」阶段,而把从学校学到的知识应用到日常解决问题中去,对问题的结论进行判别,我们可以将其看做深度神经网络的「推理」阶段。
模型训练学习和在线推理服务对计算力和规模有着不同的需求,训练过程需要对数以亿计的样本进行反复迭代处理,需要上百万TFLOP(1TFLOP=1万亿次浮点运算)计算能力,而在线推理对计算的需求仅是训练学习的十亿分之一,但对延迟的要求更高,要在毫秒间做出反应。
模型训练+在线服务:鱼和熊掌皆可兼得
对于计算行业而言,性能大幅度进步依赖于从硬件层系统层到计算架构层的的全面升级优化,基于独享型架构提供稳定GPU计算力和最高25G网络,阿里云同时将底层网络虚拟化架构进行重构,全面升级到第二代Apsara vSwitch技术。
针对模型训练学习,阿里云在今年5月推出了高性能GPU实例GN5,单实例最多可提供8个英伟达P100 GPU、2万多个并行处理核心,最高75TFLOPS FP32单精度浮点、150 TFLOPS FP16半精度浮点和38 TFLOPS FP64双精度浮点运算能力,单实例性能比上一代拓展了5倍。
而本次发布的GN5i可以看做是对GN5的补充,针对在线推理服务做了大幅优化,轻松保障深度学习推理任务处理效率,大大降低了深度学习的成本,结合阿里云提供的弹性、完整的生态,客户可以用最低的使用成本、最大的弹性灵活度在云端快速搭建完整的AI人工智能服务。该产品支持包月、包年的预付费支付模式,同时也支持按小时付费的使用模型。
除了产品层面,阿里云还提供了全方位的人工智能产业服务,包括智能语音交互、图像/视频识别、交通预测、情感分析等技术服务,这些技术正通过阿里云ET对外输出。
过去一年,阿里云推出ET城市大脑、ET工业大脑、ET医疗大脑等行业垂直的人工智能系统,为工厂或者医院创造更多利润或者更高的诊断准确率。
点击阅读原文了解更多GN5i的产品和服务