机器学习该怎么入门?

本人大学本科,对机器学习很感兴趣,想从事这方面的研究。在网上看到机器学习有一些经典书如Bishop的PRML, Tom Mitchell的machin…
关注者
29,987
被浏览
6,986,321
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

本课程来自清华大学计算机系唐杰老师。

授课教师主页: keg.cs.tsinghua.edu.cn/

课程主页:aminer.cn/aml

学术资源
  • 会议:
    • 偏理论: NIPS, COLT, STOC/FOCS
    • 偏算法: ICML, KDD, UAI, IJCAI/AAAI
    • 偏应用: SIGIR, WWW, ACL


  • 期刊:JMLR, JAIR, MLJ, ACM TKDD, IEEE TKDE
  • 参考书:
    • Yoshua Bengio, Ian J. Goodfellow, Aaron Courville. Deep Learning. 2016.
    • Christopher M. Bishop. Pattern Recognition and Machine Learning. Springer, 2007.
    • Daphne Koller, Nir Friedman. Probabilistic Graphical Models. MIT Press, 2009

1 人工智能

1.1 发展历史

  • AI发展历史
    • AI经历了感知机->专家系统->深度学习三个发展阶段
  • 各国的发展战略
  • AI开放平台
    • OpenAI (Sutskever)
    • Mila (Bengio)
    • Vector Institute (Hinton)
    • THU自己的两个AI平台:
      • 学术搜索与挖掘系统(类似于谷歌学术/research gate):aminer.org
      • 北京智源人工智能研究院


  • 学科领域交叉与渗透

1.2 发展趋势

  • AI的发展趋势:从感知到认知
    • 计算:存储与计算;
    • 感知:识别文本、图像、声音;
    • 认知:组织、生成知识,推理;


  • 机器学习发展趋势:
    • 大数据->深度学习->集群学习(Collective Learning)
  • 近些年AI领域里程碑
    • BERT:预训练、微调,2018年在11个NLP任务上打败所有SOTA算法
    • XLNet:自回归模型,2019年打败BERT
    • ALBERT:轻量化BERT,减低了参数量,打败了XLNet
    • 视频合成:Video-to-Video Synthesis ;
    • 自监督学习:
      • MoCo:无监督视觉表示学习,动量对比学习,性能超越监督式预训练模型;
      • SimCLR:简化对比学习框架,在ImageNet数据集上性能超越以往自监督与半监督方法。

2 课程内容概述

2.1 先修知识:

  • 概率统计
    • 例如,似然,条件概率,后验概率,贝叶斯


  • 线性代数
    • 例如,线性变换,特征值,最小二乘拟合
  • 最优化/凸优化
  • 机器学习
    • 例如,向量空间模型,语言模型


  • 会一种编程语言
    • C/C++
    • Java, C#, .NET
    • Perl, Python

2.2 机器学习当前状态

2.3 课程目录

  • 机器学习基础
    • 数据表示与机器学习
      • 评估;
      • 感知机、贝叶斯分类、决策树等;


    • 无监督学习
      • 评估
      • K-means
    • 线性代数
    • 概率与信息论
    • 数值计算


  • 深度前馈网络(6课时)
    • 基于梯度的学习算法
    • 模型设计
    • 反向传播
  • 深度学习中的正则化
    • 乘法参数范数
    • 半监督学习
    • 多任务学习
    • Bagging与其他算法(集成学习)
    • Dropout
    • 对抗训练


  • 训练深度模型
    • 基础算法
    • 参数初始化方法
    • 近似二阶方法
    • 优化策略与元学习
  • 卷积网络
    • 卷积操作
    • 池化
    • 变种
    • 学习算法


  • 序列神经网络
    • 循环神经网络
    • 双向RNNs
    • 序列到序列
    • 深度循环网络
    • 递归神经网络
    • 长短时记忆网络(LSTM)
  • 深度网络实现框架
    • Tensorflow
    • Keras
    • CNTK
    • MXNet
    • Torch
    • Theano


  • 线性因子模型
    • 概率PCA与因子分析
    • 独立成分分析(ICA)
    • 稀疏编码
    • 流形插值
  • 自编码器
    • 不完整的自动编码器
    • 正则化的自编码器
    • 表示的力量
    • 随机编码器和解码器
    • 用自编码器学习流形
    • 对比性自编码器
    • 预测性稀疏分解


  • 表示学习
    • 贪婪的层级无监督预训练
    • 带有领域适应性的转移学习
    • 分布式表征
    • 从深度中得到的指数级收益
  • 结构化概率模型
    • 图模型
    • 从图模型中采样
    • 学习算法
    • 深度学习方法


  • MCMC与近似推断
    • 随机最大似然
    • 对比散度
    • 分数匹配与比率匹配
    • 期望最大化
    • 最大后验概率(MAP)推断
    • 变分推断
  • 强化学习
    • 多臂强盗
    • 有限马尔可夫决策过程
    • 策略上的预测
    • 非策略上的预测


  • 深度生成模型
    • (受限)玻尔兹曼机
    • 深度置信网络
    • 深度玻尔兹曼机
    • 卷积玻尔兹曼机
    • 有向生成模型
    • 生成随机网路

2.4 潜在的学习成果

  • 理解经典机器学习算法原理
  • 能够将正确的机器学习算法应用于自己的领域
  • 能够设计高效的机器学习算法解决新的问题

3 参考资料

  • 参考书
    • Yoshua Bengio, Ian J. Goodfellow, and Aaron Courville. Deep Learning. 2016.
    • Christopher M. Bishop. Pattern Recognition and Machine Learning, Springer, 2007.


  • 其他参考资料
    • John Hopcroft . Computer Science Theory for the Information Age. 2011.
    • Daphne Koller and Nir Friedman. Probabilistic Graphical Models. MIT Press, 2009
    • Michael I. Jordan. An Introduction to Probabilistic Graphic al Models. University of California, Berkeley. June 30, 2003.
    • Martin J. Wainwright and Michael I. Jordan. Graphical Models, Exponential Families, and Variational Inference, Foundations and Trends in Machine Learning, V1 (1-2), 2008.
    • Trevor Hastie, Robert Tibshirani, Jerome Friedman. Elements of Statistical Learning. Springer, 2003.
    • Yoshua Bengio. Learning Deep Architectures for AI. Foundations and Trends in Machine Learning, V2 (1), 2009.
    • David J.C. MacKay. Information Theory, Inference, and Learning Algorithms. Cambridge University Press, 2003.



推荐阅读