【导读】词嵌入,以及随后衍生出的句子和文档嵌入已成为所有基于深度学习的自然语言处理(NLP)系统的重要组成部分。它们在定长的密集向量中编码单词和句子,以大幅度提高文本数据的处理性能。本文从词、短语、句子、文档和应用这五个方面讲解,深入浅出地介绍当前最先进的通用词/句嵌入技术。
【词句嵌入PPT下载】
请关注专知公众号(点击上方蓝色专知关注)
后台回复“词句嵌入” 就可以获取最新《PPT》的下载链接~
教程介绍
虽然像word2vec和GloVe生成的词嵌入被广泛认为是处理文本数据的简单方法,但最近在处理文本数据方面取得了重大进展,使用了改进版本的嵌入方法。特别地,人们可能希望神经网络学习得到的向量不仅可以表示单个单词,还可以表示更长的语言单位,包括1)多单词短语,2)完整的句子,甚至3)完整的文档。
这些设置的算法可以利用大型语料库,但也可以利用来自其他类型数据来进行监督,例如文档标签,词汇资源或自然语言推断数据集。句子嵌入是特别有趣的,因为它们可能需要适当地解释比较相似的句子之间的细微差别。此外,还开发了用于多语言和跨语言方面的嵌入表示的新技术。
因此,本教程将概述最新的最先进的方法,这些方法不仅适用于word2vec,还可以更好地为单语言和跨语言的长单位(如句子和文档)的语义建模。本教程首先简要回顾一下word2vec,以及它与分布式语义的经典方法之间的关系,因此这个教程不需要先验知识。
主讲人介绍
Gerard de Melo,罗格斯大学的助理教授
http://gerard.demelo.org
Gerard de Melo是罗格斯大学的助理教授,领导着一个研究NLP和人工智能的团队。发表论文100余篇,在WWW、CIKM、ICGL、NAACL VSM Workshop等会议获得最佳论文/演示奖。
Neural Vector Representations beyond Words: Sentence and Document Embeddings
首先介绍为什么需要向量表示
这是教程的目录,分别从词、短语、句子、文档以及应用来展开讲解。
开始介绍 word representations 这部分内容
然后介绍 phrase representations 这部分内容
接着介绍第三部分 sentence representations 这部分内容
接着介绍第四部分 document representations 这部分内容
最后介绍第五部分 application and outlook 这部分内容
参考链接:
http://gerard.demelo.org/teaching/embedding-tutorial/
-END-
专 · 知
专知《深度学习:算法到实战》课程全部完成!480+位同学在学习,现在报名,限时优惠!网易云课堂人工智能畅销榜首位!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询!
请加专知小助手微信(扫一扫如下二维码添加),加入专知人工智能主题群,咨询《深度学习:算法到实战》课程,咨询技术商务合作~
请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料!
点击“阅读原文”,了解报名专知《深度学习:算法到实战》课程