春节充电系列:李宏毅2017机器学习笔记14之无监督学习:词嵌入表示(Word Embedding)

2018 年 2 月 28 日 专知 专知内容组

【导读】我们在上一节的内容中已经为大家介绍了台大李宏毅老师的机器学习课程的无监督学习:主成分分析(PCA),这一节将主要针对讨论unsupervised learning-word embedding。本文内容涉及机器学习中半监督学习word embedding的若干主要问题:word embedding的含义,prediction-based, language model以及word embedding拓展。话不多说,让我们一起学习这些内容吧


春节充电系列:李宏毅2017机器学习课程学习笔记01之简介

春节充电系列:李宏毅2017机器学习课程学习笔记02之Regression

春节充电系列:李宏毅2017机器学习课程学习笔记03之梯度下降

春节充电系列:李宏毅2017机器学习课程学习笔记04分类(Classification)

春节充电系列:李宏毅2017机器学习课程学习笔记05之Logistic 回归

春节充电系列:李宏毅2017机器学习课程学习笔记06之深度学习入门

春节充电系列:李宏毅2017机器学习课程学习笔记07之反向传播(Back Propagation)

春节充电系列:李宏毅2017机器学习课程学习笔记08之“Hello World” of Deep Learning

春节充电系列:李宏毅2017机器学习课程学习笔记09之Tip for training DNN

春节充电系列:李宏毅2017机器学习课程学习笔记10之卷积神经网络

春节充电系列:李宏毅2017机器学习课程学习笔记11之Why Deep Learning?

春节充电系列:李宏毅2017机器学习课程学习笔记12之半监督学习(Semi-supervised Learning)

春节充电系列:李宏毅2017机器学习课程学习笔记13之无监督学习:主成分分析(PCA)


课件网址:

http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17_2.html

http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html


视频网址:

https://www.bilibili.com/video/av15889450/index_1.html



李宏毅机器学习笔记14 Unsupervised Learning : Word Embedding(无监督学习:词嵌入表示)


1.word embedding的含义




Word embedding指的是机器从许多文档中非监督学习到词语的含义


表示词语的含义有许多方法,最简单的是1-of-N encoding,但这个方法可以独立表示每个词,但词与词之间的关联并不能表示出来,并且0-1序列过于庞大了。Word class也是一种方法,将词汇分为不同的类,但这种分类太粗糙了。较好的方法即使今天介绍的work embedding方法,用向量表示每个词汇。


一个词汇的含义能够从句子中学到,比如下面的句子我们就知道马英九和蔡英文在某些部分中含义很相近

如果两个词汇含义很相近则他们向量也应该很相近


2.prediction-based




我们可以利用Neural Network进行文本的预测,以真实值和预测值的交叉熵作为损失函数


或者可以利用word embedding进行句子的预测,例如推文接话


3.langugage model




在language modeling中,一个句子出现的概率可以表示为一系列条件概率的乘积 


一个词后接另一个词的概率也是可以用NN来训练


因为马英九和蔡英文后面接的都是宣誓就职,所以马英九和蔡英文的向量表示应该很相近


4.word embedding拓展




当然prediction-based 不止这一种架构,还有很多其他架构,比如continuous bag of word model,skip-gram


对于word embedding我们可以发现在向量空间中每个国家和他的首都有着类似的关系


例如比较级两个词语向量相减近似相等,我们可以发现,对于word embedding,有特定关系的两个词语他们的向量差是近似相等的。


我们还可以实现多语言的word embedding


推广还有document embedding,每个向量表示句子的含义


传统方法是采用词袋模型,统计每个词语出现的次数

但这是不够的,因为在文章中词语出现的顺序很重要。

 

请关注专知公众号(扫一扫最下面专知二维码,或者点击上方蓝色专知),

  • 后台回复“LHY2017” 就可以获取 2017年李宏毅中文机器学习课程下载链接~

-END-

专 · 知

人工智能领域主题知识资料查看获取【专知荟萃】人工智能领域26个主题知识资料全集(入门/进阶/论文/综述/视频/专家等)

同时欢迎各位用户进行专知投稿,详情请点击

诚邀】专知诚挚邀请各位专业者加入AI创作者计划了解使用专知!

请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料

请扫一扫如下二维码关注我们的公众号,获取人工智能的专业知识!

请加专知小助手微信(Rancho_Fang),加入专知主题人工智能群交流!

点击“阅读原文”,使用专知

登录查看更多
5

相关内容

李宏毅(Hung-yi Lee)目前任台湾大学电机工程学系和电机资讯学院的助理教授,他曾于 2012 年获得台湾大学博士学位,并于 2013 年赴麻省理工学院(MIT)计算机科学和人工智能实验室(CSAIL)做访问学者。他的研究方向主要是机器学习(深度学习)和语音识别。
深度学习自然语言处理概述,216页ppt,Jindřich Helcl
专知会员服务
212+阅读 · 2020年4月26日
【Texas 大学】强化学习领域的课程学习:一个框架和综述
专知会员服务
71+阅读 · 2020年3月22日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
77+阅读 · 2020年2月3日
专知会员服务
115+阅读 · 2019年12月24日
【课程推荐】普林斯顿陈丹琦COS 484: 自然语言处理课程
专知会员服务
82+阅读 · 2019年12月11日
Do RNN and LSTM have Long Memory?
Arxiv
19+阅读 · 2020年6月10日
Arxiv
4+阅读 · 2018年5月21日
VIP会员
Top
微信扫码咨询专知VIP会员