通信和信息技术创新人才培养工程项目办公室
通人办〔2018〕 第5号
机器学习、深度学习算法原理与案例实践暨Python大数据综合应用高级研修班
一、课程简介
课程强调动手操作;内容以代码落地为主,以理论讲解为根,以公式推导为辅。共4天8节,讲解机器学习和深度学习的模型理论和代码实践,梳理机器学习、深度学习、计算机视觉的技术框架,从根本上解决如何使用模型、优化模型的问题;每次课中,首先阐述算法理论和少量公式推导,然后使用真实数据做数据挖掘、机器学习、深度学习的数据分析、特征选择、调参和结果比较。
二、课程目标
通过课程学习,可以理解机器学习的思维方式和关键技术;了解深度学习和机器学习在当前工业界的落地应用;能够根据数据分布选择合适的算法模型并书写代码,初步胜任使用Python进行数据挖掘、机器学习、深度学习等工作。
三、课程特点
课程重视代码实践,使用金融、气象、农业、交通、安防等工业界实际数据(数据已脱敏)进行机器学习模型的落地应用。虽然课程坚持推导公式,但更重视机器学习和深度学习的原理与实操;将实际工作中遇到的行业应用和痛点做最直观切实的展示;重视算法模型的同时,更强调实际问题中应该如何模型选择、特征选择和调参。讲授者同时在多家企业任职首席或顾问,有丰富的工业经验,能够保证听者尽快了解数据挖掘、机器学习、深度学习的本质和实践应用。
四、讲师简介
邹博,中国科学院副研究员,天津大学软件学院创业导师,成立中国科学院邹博人工智能研究中心(杭州站),在翔创、天识、睿客邦等公司担任技术顾问,研究方向机器学习、深度学习、计算几何,应用于大型气象设备图像与文本挖掘、股票交易与预测、量子化学医药路径寻优、传统农资产品价格预测和决策等领域。
尹老师,数据科学家,浙江大学物理学博士,浙江某高校数据科学专业负责人,兼任某网络科技上市公司大数据总监,受聘担任多家大数据教学机构主讲教师,开发多套python高级编程、机器学习、网络爬虫与文本挖掘系列课程,10+年python软件开发数据产品经验,熟悉R \Javascript等多种编程语言,具有丰富的python统计建模、数据挖掘、大数据技术教学经验,先后为中国交通银行,平安保险公司等数十家知名机构主讲python课程。
2017年成立中科院邹博人工智能研究中心(杭州站)
2017年9月22日-24日 京东方集团机器学习与计算机视觉企业内训
2017年9月11日-14日 中国电信2017年数据分析与挖掘人才技能评价训练营
2017年8月3日-7日 北京理工大学机器学习和深度学习高校师资培训
五、课程模块
1、机器学习、深度学习算法原理及案例实现
专题模块 |
内容设置 |
代码与案例实践 |
第1讲:Python机器学习与TensorFlow |
解释器Python2.7/3.6与IDE:Anaconda/Pycharm 列表/元组/字典/类/文件 numpy/scipy/matplotlib/panda的介绍和典型使用 scikit-learn的介绍和典型使用 TensorFlow典型应用 典型图像处理 多种数学曲线、多项式拟合 快速傅里叶变换FFT、奇异值分解SVD Soble/Prewitt/Laplacian与卷积网络 |
卷积与(指数)移动平均线 股票数据分析 缺失数据的处理 环境数据异常检测和分析 |
第2讲:多元线性回归与Logistic回归 |
线性回归 Logistic/Softmax回归 广义线性回归 L1/L2正则化 Ridge与LASSO Elastic Net 梯度下降算法:BGD与SGD 特征选择与过拟合 Softmax回归的概念源头 最大熵模型 K-L散度
|
股票数据的特征提取和应用 泰坦尼克号乘客缺失数据处理和存活率预测 环境检测数据异常分析和预测 模糊数据查询和数据校正方法 PCA与鸢尾花数据分类 二手车数据特征选择与算法模型比较 广告投入与销售额回归分析 鸢尾花数据集的分类 TensorFlow实现线性回归 TensorFlow实现Logistic回归 |
第3讲:决策树和随机森林 |
熵、联合熵、条件熵、KL散度、互信息 最大似然估计与最大熵模型 ID3、C4.5、CART详解 决策树的正则化 预剪枝和后剪枝、Bagging 随机森林 不平衡数据集的处理 利用随机森林做特征选择 使用随机森林计算样本相似度 异常值检测 |
随机森林与特征选择 决策树应用于回归 多标记的决策树回归 决策树和随机森林的可视化 葡萄酒数据集的决策树/随机森林分类 泰坦尼克乘客存活率估计 |
第4讲:SVM |
线性可分支持向量机 软间隔 损失函数的理解 核函数的原理和选择 SMO算法 支持向量回归SVR 多分类SVM
|
原始数据和特征提取 调用开源库函数完成SVM 葡萄酒数据分类 数字图像的手写体识别 MNIST手写体识别 SVR用于时间序列曲线预测 SVM、Logistic回归、随机森林三者的横向比较 |
第5讲:卷积神经网络CNN |
神经网络结构,滤波器,卷积 池化,激活函数,反向传播 目标分类与识别、目标检测与追踪 经典AlexNet、VGGNet、GoogleLeNet ResNet、Inception-V3/V4 |
搭建自己的卷积神经网络 数字图像识别、人证合一验证 基本OCR系统 基于CNN的图像识别框架 卷积神经网络调参经验分享 |
第6讲:图像视频的定位与识别 |
卷积深度与卷积核关系 视频关键帧处理 物体检测与定位 RCNN,Fast-RCNN, Faster-RCNN MaskRCNN、YOLO、FaceNet |
迁移学习与人脸检测 OCR字体定位和识别 睿客识云、气象识别 |
第七讲:循环神经网络RNN |
RNN基本原理 LSTM、GRU、Attention 编码器与解码器结构 特征提取:word2vec Seq2seq模型 机器翻译、文本摘要、阅读理解问答系统 |
图片标注与图片问答 HMM分词、文本摘要的生成 智能对话系统和SeqSeq模型 阅读理解的实现与Attention |
第八讲:生成对抗网络GAN与强化学习RL |
生成与判别 贝叶斯、HMM到深度生成模型 GAN对抗生成神经网络 DCGAN/Conditional GAN InfoGan/ Wasserstein GAN 马尔科夫决策过程 贝尔曼方程、最优策略 策略迭代、值迭代 Q Learning、SarsaLamda、DQN/A3C/ELF |
图片生成、看图说话 对抗生成神经网络调参经验 飞翔的小鸟游戏 基于增强学习的游戏学习 DQN的实现 |
2、python高级编程与大数据综合应用
第一天 |
第1讲:Python数据科学环境搭建 |
1. Anaconda套件 2. Python开发IDE介绍 3. 数据科学相关库简介 4. Jupyter notebook基本使用 5. Markdown基础语法 |
第2讲:Python编程基础 |
1. 基础数据结构--列表 2. 基础数据结构--字符串 3. 基础数据结构—字典 4. Python基础语法-控制流 5. Python基础语法-函数 6. Python异常处理 |
|
第3讲:文件组织与处理 |
1. 文件读写 2. 文件组织 3. 处理Excel电子表格 4. 处理PDF和Word文档 5. 处理CSV和JSON数据 |
|
第4讲:图像组织与处理 |
1. Pillow库简介 2. 处理Image数据类型 3. 图像剪裁 4. 图像旋转和翻转 5. 图像绘制 |
|
第二天 |
第5讲:Python编程进阶 |
1. Python基础-类 2. Python基础-模块 3. 迭代器与生成器 4. Python标准库介绍 5. 案例:利用Python解决八皇后问题 |
第6讲:Python与数据库 |
1. Python的数据库支持 2. Python与SQLite 3. Python与MySQL 4. Python与NoSQL 5. 案例:构建简单的Python数据库应用 |
|
第7讲:Python文本处理 |
1. Python的字符串操作 2. Python与正则表达式 3. 自然语言处理包NLTK 4. 文本语料与词汇资源 5. 中文分词介绍(jieba) 6. 文本挖掘预处理技术 |
|
第三天 |
第8讲:Python网络爬虫 |
1. 网络爬虫技术基础 2. 基础Python爬虫库(urllib/Requests) 3. “漂亮”的爬虫库-Beautiful Soup 4. 静态网页爬取案例分享 5. Ajax和DHTML网站爬取 |
第9讲:Python数据分析 |
1. 利用Python进行数据操作 2. 数值计算- numpy基础 3. 基础绘图与可视化- matplotlib 4. 数据分析库-pandas 5. 案例:美国儿童的姓名趋势探索分析 |
|
第10讲:Python数据可视化 |
1. 数据可视化简介 2. Python可视化进阶Seaborn 3. Python交互式可视化-Bokeh 4. 互动性图表的另一选择-Plotly 5. 词云介绍 |
|
第四天 (选修) |
第11讲:Python统计分析 |
1. 科学计算库scipy简介 2. 统计分析库StatsModels简介 3. 概率与分布 4. 参数估计和假设检验 5. 统计模型与回归分析 6. 多元统计分析 |
第12讲:Python机器学习 |
1. 机器学习简介与基本流程 2. 常用机器学习算法介绍 3. 机器学习中的预处理技术 4. 特征工程 5. 模型评估与改进 6. 案例:某银行贷款违约风险预测 7. 案例:泰坦尼克号沉船幸存者预测 |
|
第13讲:高性能Python与大数据处理 |
1. Python大数据处理技巧 2. Cython与numpy 3. PyPy简介 4. 分布式计算与Python 5. 利用PySpark处理大数据 |
六、颁发证书
经考核合格可获得国家工信部全国通信和信息技术创新人才培养工程《大数据挖掘与分析应用高级工程师》职业技术水平证书。该证表明持有者已通过相关考核,具备相应的专业知识和专业技能,并作为聘用、任职、定级和晋升的重要参考依据,全国通用。
七、时间与地点
模块一: 2018年4月19日~22日 杭 州
模块二: 2018年4月11日~15日 上 海
八、费用标准
参会费4900元/人(含专家授课费、教材考试费、证书申报、
场地等),食宿统一安排,费用自理。
九、联系方式
联系电话: 13718006076
微 信:13718006076
联 系 人: 张 洪
邮 箱:2542361215@qq.com
附件:报名回执表
机器学习、深度学习暨python高级编程高级研修班报名回执表
(经研究我单位选派以下同志参加此次学习)
单位名称 |
|||||
发票抬头 |
|||||
发票税号 |
|||||
选修模块 |
□1、机器学习与深度学习(杭州班) □2、python大数据综合应用(上海班) |
||||
发票内容 |
□1、培训费 □2、会议费 □3、会 务 费 |
||||
缴款方式 |
□1、现 金 □2、刷 卡 □3、对公转账 |
||||
参会人数:_ ___ 人 |
参会费用: _ ____元 |
||||
参会 人员 名单
|
姓 名 |
职 务 |
手 机 |
电 子 邮 箱 |
|
住宿安排 |
□1、住 □2、不住 □3、待定 |
||||
住宿标准 |
□1、双人标间 □2、单间 □3、待定 |
||||
对本课程的意见及建议 |
|||||
其它感兴趣的课程 |
|||||
注:请确定参加人员从速报名,培训报到前7日我们将以电子邮件的方式给您发送《报到通知》及学习软件、课件,告知具体培训地点、乘车路线等事宜。