众所周知,深度神经网络模型被广泛应用在图像分类、物体检测,目标跟踪等计算机视觉任务中,并取得了巨大成功。
随着不同场景的需求变得更加多样,越来越多的IoT设备和场景需要与数据采集点以最接近的低时延来进行决策和操作;另外IoT物联设备生成的数据量通常很大,由于运营成本、时间和隐私方面的考虑,移动和存储所有生成的数据不太可行。
AI技术的一个趋势是在设备端上部署高性能的神经网络模型,并在真实场景中实时运行。如移动端/嵌入式设备,这些设备的特点是内存资源少,处理器性能不高,功耗受限,这使得目前精度最高的模型根本无法在这些设备进行部署和达到实时运行。
存储空间和算力资源的限制,使得神经网络模型在移动设备和嵌入式设备上的存储与计算仍然具有巨大的挑战。
IDC公司预测,到2025年,物联网设备数量预计将超过560亿台。MarketsandMarkets则表示,2020年全球边缘计算市场规模约为36亿美元。
预计到2025年将增长到157亿美元,复合年增长率达到惊人的34.1%。
在边缘的用例以及对经济的影响将变得巨大。EdgeAI可用于监视和监控目标、自动驾驶车辆、智能扬声器和工业物联网。而像新冠肺炎等流行病则加速了边缘计算的应用。
麦肯锡预测,到2025年,仅涉及物联网(IoT)应用的用例所产生的经济价值将在每年3.9万亿美元至11.1万亿美元之间。
目前招聘平台上,关于边缘AI算法人才的需求,也是非常火爆,非常多的大厂都在疯狂揽人,其招聘岗位数量和薪资甚至不逊于NLP算法工程师。
为了全面系统的培养高性能神经网络人才,贪心学院重磅推出
《高性能神经网络与AI芯片应用研修课程》,为想进入边缘AI行业的同学们提供一个可以大幅提升自身就业竞争力的选择。
本课程会讲解边缘AI相关知识、高性能网络设计、通用芯片及专用芯片计算加速方法等专业技能,并结合优秀编译器的架构和实现细节的讲解,为学生构建高性能AI算法的软硬件视角,能够解决应用落地时神经网络的优化和部署相关问题。
-
全面技术讲解:课程涵盖了轻量化神经网络设计、神经网络部署前的优化方法、神经网络编译器的设计模式和具体实现、神经网络部署到芯片上的计算加速等全面的AI嵌入式芯片设计和应用相关人员就业必备的知识。
-
软硬件相结合:本课程除了全面讲解高性能神经网络相关的知识技术外,还会指导学员在硬件上进行实操。
-
专家导师授课:课程导师为AI芯片行业专家,相关项目经验十分丰富。
-
-
-
掌握通用芯片及专用AI芯片神经网络部署应用的实际案例
-
-
项目内容描述:
mobilenet、shufflenet、squeezenet等,模型量化、剪枝和蒸馏技术,网络的计算量和内存分析的工具,主干网络的轻量化,检测网络的轻量化,分割网络的轻量化,不同框架提供的加速方案。
项目使用的数据集:
COCO,ADE20k,ImageNet
项目使用的工具:
python,c/c++,pytorch,tensorflow,distiller,ncnn
项目预期结果:学员掌握轻量化网络设计准则,模型轻量化技术,能够上手操作一 个网络部署前的优化。
项目内容描述:tvm,ncnn,mnn,tnn 各自的特点,对于神经网络的优化方案,tvm的具体设备的优化方案,算子融合,路径优化,内存优化,ncnn的网络的表示数据结构,ncnn的一些优化计算的思路,量化方法,mnn中的数据结构,模型转换和量化方法,tnn和ncnn的区别,系统架构,量化方法。
项目使用的工具:python,c/c++,tvm,ncnn,tnn,mnn
项目预期结果:学员对于神经网络编译器有全面的了解,对于主流神经网络编译器能够实践使用,完成模型到芯片所需要格式的转换。
项目内容描述:cpu,arm对应的指令集级别的加速,编译器中具体的优化策略,simd,avx,sse,openblas,neon和cpu中对于卷积的运算加速方案,cpu上的具体实例,arm上的具体实例,环境配置,神经网络的例子,加速方案的组合和实际效果。
项目使用的算法:simd,avs,sse,blas,winograd
项目使用的工具:nnpack,qnnpack,lowpgemm,tvm,ncnn
项目预期结果:学员深入掌握cpu,arm等芯片的神经网络加速技术,并且通过一个例子来看具体的加速效果 。
项目内容描述:gpu和k210 npu及各自神经网络编译器中的加速优化技术,gpu上的cuda加速的方法,cublas,opencl,vulkan的开发例子,nncase上编译一个网络,k210开发板环境配置及人脸检测模型的部署
项目使用的工具(编程语言、工具、技术等):Python,C/C++,opencl,vulkan,nncase
项目预期结果:学员可以掌握gpu及npu上神经网络的编译加速,并且通过一个具体的例子来完成人脸检测模型在k210芯片上的部署 。
本节课将讲解网络参数量、浮点运算数等模型评价指标、工具,以及分类网络, 检测网络,分割网络的轻量化设计。
本节课将讲解神经网络知识蒸馏优化、神经网络计算低秩分解加速计算方法。
本节课将讲解网络稀疏性原理,网络剪枝原则及剪枝的常见方法。
本节课将讲解网络的低比特化,以及在AI芯片中的计算,实现网络量化的离线和在线感知的量化方法。
本节课将讲解tvm、ncnn、tnn、mnn的简要对比,tvm relay和网络转换,网络的编译优化和推理加速。
本节课将讲解ncnn的系统架构图,数据结构,支持的框架,网络的表示,网络优化,量化,以及各平台的优化策略。
本节课将讲解tnn的系统架构图,数据结构,支持的框架,网络的表示,网络优化,量化,以及各平台的优化策略。
本节课将讲解mnn的系统架构图,数据结构,支持的框架,网络的表示,网络优化,量化,以及各平台的优化策略。
本节课将讲解cpu中的指令集优化,simd、avx、sse方法,及tvm中对于cpu上神经网络加速的位置。
-
cpu中的指令集优化:simd,avx,sse方法
-
本节课将讲解arm中的neon优化,及ncnn,tnn和mnn的实现,并结合实际例子来看具体的加速效果。
本节课将讲解卷积计算的优化算法,包括winograd等。
本节课将讲解openblas库的优化,nnpack/qnnpack的优化,及lowpgemm。
本节课将讲解gpu与cpu计算加速的区别,英伟达gpu的原生cuda加速方法,及推理侧tensorrt的使用。
本节课将讲解通用加速库cublas,vulkan,opencl的使用。
本节课将讲解dsp,fpga,npu的专用加速计算。
本节课将以嘉楠科技的k210为例,实现一个人脸检测案例。
-
编程及深度学习基础良好,为了想进入AI芯片行业发展
-
-
想通过掌握硬件技术,拓宽未来职业路径的AI算法工程师
-
掌握python、C++开发,及深度学习的基础知识。
原拼多多、同盾科技等公司算法工程师,AI算法领域从业15+年
先后在NIPS, CVPR, ICCV, IJCAI等会议发表30篇以上论文,1000+引用次数
14年人工智能, 数字图像处理和推荐系统领域研究和项目经验
曾任独角兽金科集团首席数据科学家、美国亚马逊和高盛的高级工程师
先后在AAAI、KDD、AISTATS、CHI等国际会议上发表过15篇以上论文