【导读】嵌入向量( embedding)是一项广受欢迎的技术,有着众多应用。最近来自撰写了《Embeddings in Natural Language Processing Theory and Advances in Vector Representation of Meaning》,共163页pdf,该书首先解释了传统的词向量空间模型和词嵌入(如Word2Vec和GloVe),然后介绍了其他类型的嵌入,如语意、句子和文档以及图形嵌入。我们还概述了上下文化表示(如ELMo、BERT)的最新发展状况,并解释了它们在NLP中的潜力。值得关注。

自2010年代早期以来,嵌入一直是自然语言处理(NLP)的流行词汇之一。将信息编码为低维向量表示,在现代机器学习算法中很容易得到集成,这在NLP的发展中起到了核心作用。嵌入技术最初集中在单词上,但很快注意力开始转向其他形式:从图形结构(如知识库),转向其他类型的文本内容(如句子和文档)。

这本书提供了一个高层次NLP嵌入技术的综述。该书首先解释了传统的词向量空间模型和词嵌入(如Word2Vec和GloVe),然后介绍了其他类型的嵌入,如语意、句子和文档以及图形嵌入。我们还概述了上下文化表示(如ELMo、BERT)的最新发展状况,并解释了它们在NLP中的潜力。

  1. 在第二章,我们提供了一些基本的NLP和机器学习应用于语言问题的背景知识。然后,简要介绍了词汇语义中常用的一些主要的知识资源。

  2. 第3章讨论了单词表示,从传统的基于可数的模型的简要概述开始,接着是最近的基于预测的和基于字符的嵌入。在同一章中,我们还描述了一些专门用于嵌入的技术,例如跨语言单词嵌入,以及单词表示的通用评估方法。

3.第4章讨论了嵌入结构化知识资源的各种技术,特别是语义图。我们将概述最近的主要方法对于图的嵌入节点和边,并总结其应用和评价。

  1. 在第5章中,我们重点讨论了单词的个别含义的表示,即:文字意义。讨论了两类意义表示(无监督的和基于知识的),然后讨论了这类表示的评价技术。

  2. 第六章是关于上下文嵌入的最新分支。在本章中,我们首先解释这种嵌入的必要性,然后描述主要的模型以及它们如何与语言模型相联系。在同一章中,我们还介绍了解释和分析上下文模型有效性的一些工作。

  3. 第7章超越了单词的层次,描述了如何将句子和文档编码成向量表示。我们介绍了一些著名的监督和非监督技术,并讨论了这些表示的应用和评估方法。

  4. 第8章解释了最近讨论的词嵌入的一些伦理问题和固有偏见。本章还介绍了消除词嵌入的一些建议。

  5. 最后,在第九章中,我们提出了结束语和开放式研究的挑战。

成为VIP会员查看完整内容
0
154

相关内容

自然语言处理(NLP)是语言学,计算机科学,信息工程和人工智能的一个子领域,与计算机和人类(自然)语言之间的相互作用有关,尤其是如何对计算机进行编程以处理和分析大量自然语言数据 。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

使用Python进行自然语言处理(NLP),学习如何设置健壮环境来执行文本分析。这第二版经历了一个重大的修改,并介绍了几个重要的变化和基于NLP的最新趋势的新主题。

您将了解如何在NLP中使用最新的、最先进的框架,以及机器学习和深度学习模型,用于Python支持的监督情感分析,以解决实际的案例研究。首先回顾Python中关于字符串和文本数据的NLP基础知识,然后讨论文本数据的工程表示方法,包括传统的统计模型和新的基于深度学习的嵌入模型。本文还讨论了解析和处理文本的改进技术和新方法。

文本摘要和主题模型已经全面修订,因此本书展示了如何在NIPS会议论文的兴趣数据集上下文中构建、调整和解释主题模型。此外,这本书涵盖了文本相似性技术与现实世界的电影推荐人的例子,以及情绪分析使用监督和非监督的技术。还有一章专门讨论语义分析,您将了解如何从头构建自己的命名实体识别(NER)系统。虽然该书的整体结构保持不变,但整个代码库、模块和章节都已更新到最新的Python 3。x版本。

你将学习

  • 理解NLP和文本的语法、语义和结构
  • 发现文本清理和功能工程
  • 回顾文本分类和文本聚类
  • 评估文本摘要和主题模型
  • 学习NLP的深度学习

这本书是给谁的

  • IT专业人员、数据分析师、开发人员、语言学专家、数据科学家和工程师,以及任何对语言学、分析和从文本数据中产生见解有浓厚兴趣的人。
成为VIP会员查看完整内容
0
97

题目: word2vec, node2vec, graph2vec, X2vec: Towards a Theory of Vector Embeddings of Structured Data

摘要:

图形和关系结构的向量表示,无论是手工制作的特征向量还是学习表示,都使我们能够将标准的数据分析和机器学习技术应用于这些结构。在机器学习和知识表示的文献中,对生成这种嵌入的方法进行了广泛的研究。然而,从理论的角度来看,向量嵌入的研究相对较少。在这篇论文中,我们从一个已经在实践中使用的嵌入技术的调查开始,提出了两个我们认为是理解向量嵌入基础的中心的理论方法。我们总结了各种方法之间的联系,并为未来的研究提出了方向。

成为VIP会员查看完整内容
0
38

分布式向量表示或嵌入将可变长度的文本映射到密集的固定长度的向量,并捕获可以转移到下游任务的先验知识。尽管嵌入式已经成为基于深度学习的NLP任务中一般和临床领域中文本表示的事实上的标准,但是还没有一篇调查论文对嵌入式在临床自然语言处理中的应用进行详细的回顾。在这篇调查论文中,我们讨论了各种医学语料库及其特点、医学规范,并对流行的嵌入式模型进行了简要的概述和比较。我们对临床包埋进行分类,并详细讨论每种包埋类型。我们讨论了各种评估方法,并提出了可能的解决方案,以应对临床嵌入治疗中的各种挑战。最后,我们总结了一些未来的方向,将推进临床嵌入式研究。

成为VIP会员查看完整内容
0
31

上下文嵌入,如ELMo和BERT,超越了像Word2Vec这样的全局单词表示,在广泛的自然语言处理任务中取得了突破性的性能。上下文嵌入根据上下文为每个单词分配一个表示,从而捕获不同上下文中单词的用法,并对跨语言传输的知识进行编码。在这项综述中,我们回顾了现有的上下文嵌入模型、跨语言的多语言预训练、上下文嵌入在下游任务中的应用、模型压缩和模型分析。

在大型语料库无监督训练的分布式词表示(Turian et al., 2010; Mikolov et al., 2013; Pennington et al., 2014)在现代自然语言处理系统中得到了广泛的应用。但是,这些方法只获得每个单词的一个全局表示,而忽略了它们的上下文。与传统的单词表示不同,上下文嵌入超越了单词级语义,因为每个标记都与作为整个输入序列的函数的表示相关联。这些与上下文相关的表示可以在不同的上下文中捕捉到词汇的许多句法和语义特征。(Peters et al., 2018; Devlin et al., 2018; Yang et al., 2019; Raffel et al., 2019)的研究表明,在大规模未标记的语料库上预训练的上下文嵌入,在文本分类、问题回答和文本摘要等一系列自然语言处理任务上取得了最先进的表现。进一步的分析(Liu et al., 2019a; Hewitt and Liang, 2019; Hewitt and Manning, 2019; Tenney et al., 2019a)证明了上下文嵌入能够学习跨语言的有用且可迁移的表示。

综述论文的其余部分组织如下。在第2节中,我们定义了上下文嵌入的概念。在第3节中,我们将介绍获取上下文嵌入的现有方法。第四部分介绍了多语言语料库中下文嵌入的预处理方法。在第5节中,我们描述了在下游任务中应用预训练的上下文嵌入的方法。在第6节中,我们详细介绍了模型压缩方法。在第7节中,我们调查了旨在识别通过语境嵌入学到的语言知识的分析。在第8节中,我们通过强调未来研究的一些挑战来结束综述。

成为VIP会员查看完整内容
0
67

题目: A Survey on Contextual Embeddings

摘要:

上下文嵌入,如ELMo和BERT,超越了像Word2Vec这样的全局单词表示,在广泛的自然语言处理任务中取得了突破性的性能。上下文嵌入根据上下文为每个单词分配一个表示,从而捕获不同上下文中单词的用法,并对跨语言传输的知识进行编码。在这项调查中,我们回顾了现有的上下文嵌入模型、跨语言的多语言预训练、上下文嵌入在下游任务中的应用、模型压缩和模型分析。

成为VIP会员查看完整内容
0
39

在本文中,我们对知识图谱进行了全面的介绍,在需要开发多样化、动态、大规模数据收集的场景中,知识图谱最近引起了业界和学术界的极大关注。在大致介绍之后,我们对用于知识图谱的各种基于图的数据模型和查询语言进行了归纳和对比。我们将讨论模式、标识和上下文在知识图谱中的作用。我们解释如何使用演绎和归纳技术的组合来表示和提取知识。我们总结了知识图谱的创建、丰富、质量评估、细化和发布的方法。我们将概述著名的开放知识图谱和企业知识图谱及其应用,以及它们如何使用上述技术。最后,我们总结了未来高层次的知识图谱研究方向。

尽管“知识图谱”一词至少从1972年就开始出现在文献中了[440],但它的现代形式起源于2012年发布的谷歌知识图谱[459],随后Airbnb[83]、亚马逊[280]、eBay[392]、Facebook[365]、IBM[123]、LinkedIn[214]、微软[457]、优步[205]等公司相继发布了开发知识图谱的公告。事实证明,学术界难以忽视这一概念的日益普及: 越来越多的科学文献发表关于知识图谱的主题,其中包括书籍(如[400]),以及概述定义(如[136])的论文,新技术(如[298,399,521]),以及对知识图谱具体方面的调查(如[375,519])。

所有这些发展的核心思想是使用图形来表示数据,通常通过某种方式显式地表示知识来增强这种思想[365]。结果最常用于涉及大规模集成、管理和从不同数据源提取价值的应用场景[365]。在这种情况下,与关系模型或NoSQL替代方案相比,使用基于图的知识抽象有很多好处。图为各种领域提供了简洁而直观的抽象,其中边捕获了社会数据、生物交互、书目引用和合作作者、交通网络等[15]中固有实体之间的(潜在的循环)关系。图允许维护者推迟模式的定义,允许数据(及其范围)以比关系设置中通常可能的更灵活的方式发展,特别是对于获取不完整的知识[2]。与(其他)NoSQL模型不同,专门的图形查询语言不仅支持标准的关系运算符(连接、联合、投影等),而且还支持递归查找通过任意长度路径[14]连接的实体的导航运算符。标准的知识表示形式主义——如本体论[66,228,344]和规则[242,270]——可以用来定义和推理用于标记和描述图中的节点和边的术语的语义。可伸缩的图形分析框架[314,478,529]可用于计算中心性、集群、摘要等,以获得对所描述领域的洞察。各种表示形式也被开发出来,支持直接在图上应用机器学习技术[519,527]。

总之,构建和使用知识图谱的决策为集成和从不同数据源提取价值提供了一系列技术。但是,我们还没有看到一个通用的统一总结,它描述了如何使用知识图谱,使用了哪些技术,以及它们如何与现有的数据管理主题相关。

本教程的目标是全面介绍知识图谱: 描述它们的基本数据模型以及如何查询它们;讨论与schema, identity, 和 context相关的表征;讨论演绎和归纳的方式使知识明确;介绍可用于创建和充实图形结构数据的各种技术;描述如何识别知识图谱的质量以及如何改进知识图谱;讨论发布知识图谱的标准和最佳实践;并提供在实践中发现的现有知识图谱的概述。我们的目标受众包括对知识图谱不熟悉的研究人员和实践者。因此,我们并不假设读者对知识图谱有特定的专业知识。

知识图。“知识图谱”的定义仍然存在争议[36,53,136],其中出现了一些(有时相互冲突的)定义,从具体的技术建议到更具包容性的一般性建议;我们在附录a中讨论了这些先前的定义。在这里,我们采用了一个包容性的定义,其中我们将知识图谱视为一个数据图,目的是积累和传递真实世界的知识,其节点表示感兴趣的实体,其边缘表示这些实体之间的关系。数据图(又称数据图)符合一个基于图的数据模型,它可以是一个有向边标记的图,一个属性图等(我们在第二节中讨论具体的替代方案)。这些知识可以从外部资源中积累,也可以从知识图谱本身中提取。知识可以由简单的语句组成,如“圣地亚哥是智利的首都”,也可以由量化的语句组成,如“所有的首都都是城市”。简单的语句可以作为数据图的边来积累。如果知识图谱打算积累量化的语句,那么就需要一种更有表现力的方式来表示知识——例如本体或规则。演绎的方法可以用来继承和积累进一步的知识(例如,“圣地亚哥是一个城市”)。基于简单或量化语句的额外知识也可以通过归纳方法从知识图谱中提取和积累。

知识图谱通常来自多个来源,因此,在结构和粒度方面可能非常多样化。解决这种多样性, 表示模式, 身份, 和上下文常常起着关键的作用,在一个模式定义了一个高层结构知识图谱,身份表示图中哪些节点(或外部源)引用同一个真实的实体,而上下文可能表明一个特定的设置一些单位的知识是真实的。如前所述,知识图谱需要有效的提取、充实、质量评估和细化方法才能随着时间的推移而增长和改进。

在实践中 知识图谱的目标是作为组织或社区内不断发展的共享知识基础[365]。在实践中,我们区分了两种类型的知识图谱:开放知识图谱和企业知识图谱。开放知识图谱在网上发布,使其内容对公众有好处。最突出的例子——DBpedia[291]、Freebase[51]、Wikidata[515]、YAGO[232]等——涵盖了许多领域,它们要么是从Wikipedia[232,291]中提取出来的,要么是由志愿者社区[51,515]建立的。开放知识图谱也在特定领域内发表过,如媒体[406]、政府[222,450]、地理[472]、旅游[11,263,308,540]、生命科学[79]等。企业知识图谱通常是公司内部的,并应用于商业用例[365]。使用企业知识图谱的著名行业包括网络搜索(如Bing[457]、谷歌[459])、商业(如Airbnb[83]、亚马逊[127、280]、eBay[392]、Uber[205])、社交网络(如Facebook[365]、LinkedIn[214])、金融(如埃森哲[368]、意大利银行[32][326]、彭博[326]、Capital One[65]、富国银行[355])等。应用包括搜索[457,459],推荐[83,205,214,365],个人代理[392],广告[214],商业分析[214],风险评估[107,495],自动化[223],以及更多。我们将在第10节中提供更多关于在实践中使用知识图谱的细节。

结构。本文件其余部分的结构如下:

  • 第2节概述了图形数据模型和可用于查询它们的语言。
  • 第3节描述了知识图谱中模式、标识和上下文的表示形式。
  • 第四节介绍了演绎式的形式主义,通过这种形式主义,知识可以被描述和推导出来。
  • 第5节描述了可以提取额外知识的归纳技术。
  • 第6节讨论了如何从外部资源中创建和丰富知识图谱。
  • 第7节列举了可用于评估知识图谱的质量维度。
  • 第8节讨论知识图谱细化的各种技术。
  • 第9节讨论发布知识图谱的原则和协议。
  • 第10节介绍了一些著名的知识图谱及其应用。
  • 第11节总结了知识图谱的研究概况和未来的研究方向。
  • 附录A提供了知识图谱的历史背景和以前的定义。
  • 附录B列举了将从论文正文中引用的正式定义。
成为VIP会员查看完整内容
0
362
小贴士
相关资讯
图数据表示学习综述论文
专知
35+阅读 · 2019年6月10日
图嵌入(Graph embedding)综述
人工智能前沿讲习班
390+阅读 · 2019年4月30日
基于深度学习的NLP 32页最新进展综述,190篇参考文献
人工智能学家
22+阅读 · 2018年12月4日
一文了解自然语言处理神经史
云栖社区
8+阅读 · 2018年12月2日
自然语言处理(NLP)前沿进展报告
人工智能学家
18+阅读 · 2018年9月30日
2017深度学习NLP进展与趋势
云栖社区
7+阅读 · 2017年12月17日
字词的向量表示
黑龙江大学自然语言处理实验室
3+阅读 · 2016年6月13日
相关论文
Xipeng Qiu,Tianxiang Sun,Yige Xu,Yunfan Shao,Ning Dai,Xuanjing Huang
91+阅读 · 2020年3月18日
Qi Liu,Matt J. Kusner,Phil Blunsom
24+阅读 · 2020年3月16日
Saurabh Verma,Zhi-Li Zhang
4+阅读 · 2019年9月25日
K-BERT: Enabling Language Representation with Knowledge Graph
Weijie Liu,Peng Zhou,Zhe Zhao,Zhiruo Wang,Qi Ju,Haotang Deng,Ping Wang
17+阅读 · 2019年9月17日
Liang Yao,Chengsheng Mao,Yuan Luo
8+阅读 · 2019年9月11日
Kazuki Irie,Albert Zeyer,Ralf Schlüter,Hermann Ney
5+阅读 · 2019年7月11日
Rik Koncel-Kedziorski,Dhanush Bekal,Yi Luan,Mirella Lapata,Hannaneh Hajishirzi
3+阅读 · 2019年5月18日
Hang Yan,Xipeng Qiu,Xuanjing Huang
4+阅读 · 2019年4月9日
A Probe into Understanding GAN and VAE models
Jingzhao Zhang,Lu Mi,Macheng Shen
6+阅读 · 2018年12月13日
Andrew K. Lampinen,James L. McClelland
5+阅读 · 2017年10月27日
Top