AAAI 2019教程—361页PPT带你回顾最新词句Embedding技术和应用- 专知

AAAI 2019教程—361页PPT带你回顾最新词句Embedding技术和应用

【导读】词嵌入，以及随后衍生出的句子和文档嵌入已成为所有基于深度学习的自然语言处理（NLP）系统的重要组成部分。它们在定长的密集向量中编码单词和句子，以大幅度提高文本数据的处理性能。本文从词、短语、句子、文档和应用这五个方面讲解，深入浅出地介绍当前最先进的通用词/句嵌入技术。

【词句嵌入PPT下载】

请关注专知公众号（点击上方蓝色专知关注）

后台回复“词句嵌入” 就可以获取最新《PPT》的下载链接~

教程介绍

虽然像word2vec和GloVe生成的词嵌入被广泛认为是处理文本数据的简单方法，但最近在处理文本数据方面取得了重大进展，使用了改进版本的嵌入方法。特别地，人们可能希望神经网络学习得到的向量不仅可以表示单个单词，还可以表示更长的语言单位，包括1)多单词短语，2)完整的句子，甚至3)完整的文档。

这些设置的算法可以利用大型语料库，但也可以利用来自其他类型数据来进行监督，例如文档标签，词汇资源或自然语言推断数据集。句子嵌入是特别有趣的，因为它们可能需要适当地解释比较相似的句子之间的细微差别。此外，还开发了用于多语言和跨语言方面的嵌入表示的新技术。

因此，本教程将概述最新的最先进的方法，这些方法不仅适用于word2vec，还可以更好地为单语言和跨语言的长单位(如句子和文档)的语义建模。本教程首先简要回顾一下word2vec，以及它与分布式语义的经典方法之间的关系，因此这个教程不需要先验知识。

主讲人介绍

Gerard de Melo，罗格斯大学的助理教授

http://gerard.demelo.org

Gerard de Melo是罗格斯大学的助理教授，领导着一个研究NLP和人工智能的团队。发表论文100余篇，在WWW、CIKM、ICGL、NAACL VSM Workshop等会议获得最佳论文/演示奖。

Neural Vector Representations beyond Words: Sentence and Document Embeddings