春节充电系列:李宏毅机器学习笔记13之无监督学习:主成分分析(PCA)

【导读】我们在上一节的内容中已经为大家介绍了台大李宏毅老师的机器学习课程的半监督学习,这一节将主要针对讨论无监督学习:主成分分析(PCA)。本文内容涉及机器学习中无监督学习的若干主要问题:k-means,HAC,dimension reduction以及PCA。话不多说,让我们一起学习这些内容吧


春节充电系列:李宏毅2017机器学习课程学习笔记01之简介

春节充电系列:李宏毅2017机器学习课程学习笔记02之Regression

春节充电系列:李宏毅2017机器学习课程学习笔记03之梯度下降

春节充电系列:李宏毅2017机器学习课程学习笔记04分类(Classification)

春节充电系列:李宏毅2017机器学习课程学习笔记05之Logistic 回归

春节充电系列:李宏毅2017机器学习课程学习笔记06之深度学习入门

春节充电系列:李宏毅2017机器学习课程学习笔记07之反向传播(Back Propagation)

春节充电系列:李宏毅2017机器学习课程学习笔记08之“Hello World” of Deep Learning

春节充电系列:李宏毅2017机器学习课程学习笔记09之Tip for training DNN

春节充电系列:李宏毅2017机器学习课程学习笔记10之卷积神经网络

春节充电系列:李宏毅2017机器学习课程学习笔记11之Why Deep Learning?

春节充电系列:李宏毅2017机器学习课程学习笔记12之半监督学习(Semi-supervised Learning)


课件网址:

http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17_2.html

http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html


视频网址:

https://www.bilibili.com/video/av15889450/index_1.html



李宏毅机器学习笔记13 Unsupervised Learning : Principle Component Analysis(无监督学习:主成分分析)


Unsupervised learning指的训练集都没有label,unsupervisedlearning分为两种,只有输入的叫做cluster或者dimension reduction,只要输出的叫做generation。



1. K-means



最简单的算法是K-means,先随机找出k个中心,x离哪个中心最近输入哪个类,然后重新找出这些类的中心,一直循环下去直到收敛。


2. HAC



还有一个聚类方法叫做hierarchical agglomerative clustering(HAC),先找最相近的两个连在一起,然后取平均,一次类推(类似哈弗曼树),最后根据阈值一刀切,分类。


但这样直接分类太粗糙了,我们可以使用分布式表示来表达一个x



3. dimension reduction



将一个高维空间的x在低维空间表示叫做dimension reduction


因为有时候不需要那么高的维度来描述一张image,如下图就用一维就可以表示,10,20为旋转的度数。


Dimension reduction最简单的方法是featureselection,选取最有用的维度,拿掉没有用的维度。



4. PCA



然后另一个常见的方法就是PCA


PCA只有一维的时候,我们是找出让z1区分度最大的w1,


同理,如果有两维的话,找出让除z1以外z2区分度最大的w2,


varz1)进行转化后可以得到下图所示的式子


利用lagrange multiplier我们可以发现得到的w1S的特征向量,其对应的特征值α是最大值。


当降维到两维时,得到的w2S第二大特征值对应的特征向量


降维后得到的z其协方差矩阵是对角矩阵


PCA可以应用在手写数字辨识中,手写数字是由一些basiccomponent组成的,每个component是一个vector


于是每张图像可以用这些component加权表示


我们的任务是找出kcomponent使得reconstruction error最小


矩阵化可以表示成这样


利用SVD发现XX转置乘积的前k个最大特征值对应的特征向量就是其解


实际上PCA也可以表示出网络的形式,这种网络我们称为自编码器


PCA也有缺点,多个类别的数据混合在一起的话用PCA会导致无法分开


将这个s形拉开是对于PCA做不到的 


想了解更多关于PCA的知识参考以下资料

 

请关注专知公众号(扫一扫最下面专知二维码,或者点击上方蓝色专知),

  • 后台回复“LHY2017” 就可以获取 2017年李宏毅中文机器学习课程下载链接~

-END-

专 · 知

人工智能领域主题知识资料查看获取【专知荟萃】人工智能领域26个主题知识资料全集(入门/进阶/论文/综述/视频/专家等)

同时欢迎各位用户进行专知投稿,详情请点击

诚邀】专知诚挚邀请各位专业者加入AI创作者计划了解使用专知!

请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料

请扫一扫如下二维码关注我们的公众号,获取人工智能的专业知识!

请加专知小助手微信(Rancho_Fang),加入专知主题人工智能群交流!

点击“阅读原文”,使用专知

展开全文
Top
微信扫码咨询专知VIP会员