概念体系自动构建

2020 年 12 月 21 日 专知

作者：哈工大SCIR 张景润

1.摘要

本文主要介绍开放域概念体系的自动构建。首先介绍概念体系自动构建的任务描述，然后介绍概念体系构建的通用步骤：is-a 关系对抽取、概念体系构建。最后介绍了在这些步骤中的一些常用方法。

2.任务介绍

概念体系是一个通过 is-a 关系将概念组织起来的类似于图的语义层次结构，其中节点是概念或实体，边代表概念或实体之间的 is-a 关系。概念体系可以提高许多自然语言处理和信息检索任务的效果，如查询理解^[1]、个性化推荐^[2]、问答^[3]等。

大部分概念体系的构建可以划分为两个步骤，即基于模式或基于分布式方法的is-a关系对抽取以及利用is-a 关系对构建一个完整的概念体系。

3.常用方法

3.1 is-a 关系对抽取

(1)基于模式的is-a关系对抽取

最早且最具影响力的基于模式的关系对抽取方法始于Hearst(1992)^[4]。在论文《Automatic acquisition of hyponyms from large text corpora》中，作者手动设计了一些词法模式（也可以叫做模板、规则或路径）来抽取is-a关系对。一个典型的模式形如"[C] such as [E]"，其中[C]和[E]分别是上位词y和下位词x的名词占位符。基于这些手动设计的模式，系统可以自动化地抽取大量的is-a关系对，这个方法也因此被一些系统所采用，如Wu(2012)^[5]等基于Hearst模式和大量的网页文本构建了Probase系统，该系统包含有265万的概念以及2076万的is-a关系对。

但是由于这些模式太过具体，无法覆盖所有的语言情形，因此召回率会比较低。而简单的基于模式的方法又容易因为惯用表达、解析错误和歧义而出错。一个健壮的系统可以利用多种不同的技巧来提高基于模式方法的准确率和召回率。提高召回率的方法有：模式泛化、迭代抽取以及上位词推断等，而提高准确率的方法主要有：置信度判断以及分类器判断等。

利用模式泛化来提高召回率。Ritter(2009)^[6]等尝试将Hearst模式中的名词性短语[E]替换为一些名词短语的列表；而Luu(2014)^[7]等则设计了更灵活的模式，在这些模式中的一些词是可互换的；也有一些论文提出可以尝试自动扩充模板，Snow(2004)^[8]等利用两个词语的依赖路径来代表这个模式，这使得两个词语之间的词法和句法联系都可以被建模。Snow的这种方法要比简单的基于词法的模式匹配更能抵抗噪声，从而被许多系统采用。如在PATTY^[9]系统中，通过使用单词词性、词类型（如音乐家等）以及通配符来对依赖路径的单词子集进行随机替换，最终再从中挑选模式。

利用迭代抽取来提高召回率。过于泛化的模式往往会因为语言的模糊性以及语义漂移问题而抽取出不正确的is-a关系对^[10]。因此，与上述模式泛化方法相比，一个相反的想法是使用非常具体的模式。Kozareva(2008)等^[11]采用“双锚定”模式（如“福特和*等汽车”）来获取某个特定上位词的下位词，并通过自举循环来扩展上位词和下位词，可以通过“双锚定”模式消除术语的模糊性。该方法使用每个模式作为查询，并将搜索引擎的结果作为网络语料库。

利用上位词推断来提高召回率。由于基于模式的方法要求is-a关系对必须在一个句子中共现，这就限制了抽取的召回率。Ritter(2009)^[12]等提出一个想法，如果y是x的上位词，且x和x'十分相似，则y很有可能是x'的上位词。他们还训练一个HMM来学习一个比基于向量方法更好的相似度度量方法。此外，一些方法还通过考虑下位词的修饰词来生成额外的is-a关系对。例如我们可以很容易地推断出"grizzly bear"是一个"bear"，因为其中心词为"bear"。这个思想在中文中也有类似的体现，比如"哈尔滨工业大学"的中心词"大学"就是其上位词。

利用置信度来提高准确率。在抽取到is-a关系对后，可以使用基于统计的方法来计算置信度分数并去除较低分数的关系对。如KonwItAll(2004)^[13]系统利用搜索引擎来计算x与y的点互信息值；Probase系统则利用似然概率来抽取x最有可能的上位词y。

利用分类器来提高准确率。通过训练一个分类器f来判断is-a关系对的正确性，常用的模型选择有SVM、逻辑回归、神经网络模型等，其中f的特征大多可以分为词法、语法、统计信息以及外部资源几类。Shawartz(2016)^[14]等指出，可以利用基于模式和基于分布式混合的方法来表示x和y，从而进行分类。作者的实验证明基于混合的方法可以极大提升分类器的性能。

相关模型代码已经开源，链接为https://github.com/vered1986/HypeNET

作者的混合模型结构如下图所示。

(2)基于分布式的is-a关系对抽取

基于分布式的方法可以通过一些无监督度量或有监督模型来对is-a关系对进行预测判断。由于分布式方法的输入为候选is-a关系对，因此该方法第一步需要我们从文本语料库中获取关键词来构造候选is-a关系对。

关键词抽取。关键词可以通过词性标注或命名实体识别工具被识别出来，然后可以使用若干规则进行过滤。现有的一些关键词或关键短语的抽取模型可以直接用于识别这些is-a关系对中的关键词。对于一些特定领域的概念体系来说，在经过关键词抽取后，还需要进行领域过滤。这些过滤方法多采用一些统计值并通过设置阈值来进行过滤，如TF、TF-IDF等。

无监督方法。早期的分布式相似度计算主要是对称度量方法，如余弦值、杰卡德系数、JS 散度以及被广泛运用的LIN^[14]测度：

其中x和y分别是候选下位词和上位词，与是x和y的特征，是特征f对于词x的权重。而非对称度量根据分布包含假设（DIH）对 is-a关系的非对称性进行建模，即一个下位词只出现在它的上位词的一些上下文中，而一个上位词却出现在下位词的所有上下文中。例如，“水果”这个概念的上下文范围比它的下义词更广，如“苹果”、“香蕉”和“梨”。也可以使用Weeds(2004)^[15]提出的WeedsPrec公式进行简单度量：

而也有一些研究表明DIH 并不适用于所有情况，如“American”是“Barack Obama”的上位词，但“Barack Obama”的（与政治相关的）上下文不能包含在“American”的上下文中。与下位词相比，上位词的大多数语境信息量较少，也更为笼统。为了解决这一问题，Santus (2014)^[16]等提出了一种基于熵的测度SLQS 来检测上下位词。而Roller(2014)^[17]则引入了选择性分布包含假设，以说明原始的 DIH 仅在相关维度是正确的。

有监督方法。给定待判断的词对(x,y)，我们可以通过分类、排序方法训练一个模型，来判断词对是否为上下位关系；而上位词生成方法则直接根据下位词的嵌入空间表示对如何生成上位词进行建模。在分类方法中，is-a关系词对的表示最常使用的神经语言模型有Word2Vec、GloVe、SensEmbed等。将x与y的向量表示进行组合（如简单的拼接），然后训练一个分类器如 SVM，即可完成对上下位关系的判断；上下位生成方法通过判断模型对向量 x 映射的结果与向量 y 是否相近来判断is-a关系对是否正确。由于is-a关系的表示有时会与同义词关系、部分整体关系以及共下义词关系相混淆，因此可以采用负采样技术来提高该方法的性能。Fu(2014)^[18]提出了一个排序模型，以选择实体的一个最可能的上位词。虽然该方法的召回率很低，不是提取 is-a 关系对的常用方法，但是这种方法是专门为中文设计的。由于语言表达方式的灵活性，学习中文的 is-a 关系是一个挑战。因此，有必要训练一个高精度的中文 is-a 关系对抽取模型。

3.2 概念体系归纳构建

在前面的部分，我们介绍了抽取is-a关系对的方法，现在开始介绍将这些is-a关系对合并起来并构成一个完整的概念分层体系的方法。相关的方法有增量学习、聚类以及基于图的方法等。并在构建之后，对生成的概念体系进行清洗。

(1)增量学习

一些方法通过增量学习从一个种子概念体系来构建一个完整的分层体系。Shen(2012)^[19]等提出可以通过基于图的方法将提取出来的词链接到概念体系上或者插入新的实体到概念体系中。由于这些方法严重依赖于现有的概念体系，Kozareva和Hovy(2010)^[20]提出，可以将根概念作为输入，迭代地提取 is-a 关系对来扩展概念体系。Alfarone和Davis(2015)^[21]则进一步考虑了特定领域无法获得种子概念体系的问题（他们通过 Hearst 模式匹配和启发式规则构建“种子”概念体系）。

(2)聚类

概念体系学习可以被建模为一个聚类问题，因为被聚集在一起的相似的词可能共享同一个上位词。一些论文尝试使用层次聚类法将相似的词聚类以形成一个概念体系。Alfarone 和 Davis等通过K-中心点聚类得到词集合，并将其最低共同祖先推断为词集合的共同上位词。

(3)基于图的方法

因为概念体系是一个图结构，所以基于图的方法也适合这个任务。Kozareva 和 Hovy在原始图中将最长路径作为从根到目标项的路径。Anke^[22]等人给图中的边附上领域相关性的权重值，从而计算路径的权重。也有一些论文根据图的连通性（如入度、度中心性等）来给边分配权重，从而通过 Chu-Liu/Edmonds 算法找到一个最优分支，即树形的概念体系^[23]。在去除有噪声的边后，就可以生成一棵带有最大权值的概念树。

(4)概念体系清洗

Liang(2017)^[24]等研究表明，在Probase系统的概念体系中，错误的is-a关系可能存在于环中。而通过删除回边，他们检测出了74000左右的错误is-a关系对。此外，生成的概念体系中还存在实体歧义的问题，通过传递性得到的上位词不一定总是正确的，如(爱因斯坦, 教授)和(教授, 职位)均是正确的is-a关系对，但是我们不能通过传递得到(爱因斯坦, 职位)。虽然已经有一些系统通过词义消歧来处理这个问题，但是这个问题还未被完全解决。Wang^[25]在论文《A Short Survey on Taxonomy Learning from Text Corpora: Issues, Resources and Recent Advances》中指出，学习一个完全消岐的概念体系还有很长的路要走。

4.总结

本文简要介绍了基于模式以及基于分布式的is-a关系对抽取方法，同时针对基于模式的方法抽取的is-a关系对的准确率和召回率较低的问题，介绍了提高召回率的方法：模式泛化、迭代抽取以及上位词推断，提高准确率的方法：置信度过滤以及分类器判断；然后介绍了基于增量学习、聚类以及图的概念体系构建方法；最终介绍了概念体系清洗的方法和存在的问题。

概念体系对许多自然语言处理和信息检索任务有着较大的影响，因此针对更多的领域和语言构建高质量的概念体系仍是必要的。

参考资料

[1]

Wen Hua, Zhongyuan Wang, Haixun Wang, Kai Zheng, and Xiaofang Zhou. 2017. Understand short texts by harvesting and analyzing semantic knowledge. IEEE Trans. Knowl. Data Eng. 29(3):499–512.

[2]

Yuchen Zhang, Amr Ahmed, Vanja Josifovski, and Alexander J. Smola. 2014. Taxonomy discovery for personalized recommendation. In Proceedings of the Seventh ACM International Conference on Web Search and Data Mining. pages 243–252.

[3]

Shuo Yang, Lei Zou, Zhongyuan Wang, Jun Yan, and Ji-Rong Wen. 2017. Efficiently answering technical questions - A knowledge graph approach. In Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence. pages 3111–3118.

[4]

Marti A. Hearst. 1992. Automatic acquisition of hyponyms from large text corpora. In Proceedings of the 14th International Conference on Computational Linguistics. pages 539–545.

[5]

Wentao Wu, Hongsong Li, Haixun Wang, and Kenny Qili Zhu. 2012. Probase: a probabilistic taxonomy for text understanding. In Proceedings of the ACM SIGMOD International Conference on Management of Data. pages 481–492.

[6]

Alan Ritter, Stephen Soderland, and Oren Etzioni. 2009. What is this, anyway: Automatic hypernym discovery. In Learning by Reading and Learning to Read, Proceedings of the 2009 AAAI Spring Symposium. pages 88–93.

[7]

Anh Tuan Luu, Jung-jae Kim, and See-Kiong Ng. 2014. Taxonomy construction using syntactic contextual evidence. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. pages 810–819.

[8]

Rion Snow, Daniel Jurafsky, and Andrew Y. Ng. 2004. Learning syntactic patterns for automatic hypernym discovery. In Proceedings of the 17th Annual Conference on Neural Information Processing Systems. pages 1297–1304.

[9]

Ndapandula Nakashole, Gerhard Weikum, and Fabian M. Suchanek. 2012. PATTY: A taxonomy of relational patterns with semantic types. In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Pages 1135–1145.

[10]

Andrew Carlson, Justin Betteridge, Richard C. Wang, Estevam R. Hruschka Jr. and Tom M. Mitchell. 2010. Coupled semi-supervised learning for information extraction. In Proceedings of the Third International Conference on Web Search and Web Data Mining. pages 101–110.

[11]

Zornitsa Kozareva, Ellen Riloff, and Eduard H. Hovy. 2008. Semantic class learning from the web with hyponym pattern linkage graphs. In Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics. pages 1048–1056.

[12]

[13]

Oren Etzioni, Michael J. Cafarella, Doug Downey, Stanley Kok, Ana-Maria Popescu, Tal Shaked, Stephen Soderland, Daniel S. Weld, and Alexander Yates. 2004. Web-scale information extraction in knowitall: (preliminary results). In Proceedings of the 13th international conference on World Wide Web. pages 100–110.

[14]

Dekang Lin. 1998. An information-theoretic definition of similarity. In Proceedings of the Fifteenth International Conference on Machine Learning. Pages 296–304.

[15]

Julie Weeds, David J. Weir, and Diana McCarthy. 2004. Characterising measures of lexical distributional similarity. In Proceedings of the 20th International Conference on Computational Linguistics.

[16]

Enrico Santus, Alessandro Lenci, Qin Lu, and Sabine Schulte im Walde. 2014. Chasing hypernyms in vector spaces with entropy. In Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics. pages 38–42.

[17]

Stephen Roller, Katrin Erk, and Gemma Boleda. 2014. Inclusive yet selective: Supervised distributional hypernymy detection. In Proceedings of the 25th International Conference on Computational Linguistics. pages 1025–1036.

[18]

Ruiji Fu, Jiang Guo, Bing Qin, Wanxiang Che, Haifeng Wang, and Ting Liu. 2014. Learning semantic hierarchies via word embeddings. In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. pages 1199–1209.

[19]

Wei Shen, Jianyong Wang, Ping Luo, and Min Wang. 2012. A graph-based approach for ontology population with named entities. In Proceedings of the 21st ACM International Conference on Information and Knowledge Management. pages 345–354.

[20]

Zornitsa Kozareva and Eduard H. Hovy. 2010. A semi-supervised method to learn and construct taxonomies using the web. In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. pages 1110–1118.

[21]

Daniele Alfarone and Jesse Davis. 2015. Unsupervised learning of an IS-A taxonomy from a limited domain-specific corpus. In Proceedings of the Twenty-Fourth International Joint Conference on Artificial Intelligence. pages 1434–1441.

[22]

Luis Espinosa Anke, Horacio Saggion, Francesco Ronzano, and Roberto Navigli. 2016b. Extasem! extending, taxonomizing and semantifying domain terminologies. In Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence. pages 2594–2600.

[23]

Paola Velardi, Stefano Faralli, and Roberto Navigli. 2013. Ontolearn reloaded: A graph-based algorithm for taxonomy induction. Computational Linguistics 39(3):665–707.

[24]

Jiaqing Liang, Yanghua Xiao, Yi Zhang, Seung-won Hwang, and Haixun Wang. 2017a. Graph-based wrong isa relation detection in a large-scale lexical taxonomy. In Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence. pages 1178–1184.

[25]

Chengyu Wang, Xiaofeng He, and Aoying Zhou. 2017. A Short Survey on Taxonomy Learning from Text Corpora: Issues, Resources and Recent Advances.In EMNLP.

本期责任编辑：丁　效

本期编辑：朱文轩

『哈工大SCIR』公众号

主编：车万翔

副主编：张伟男，丁效

执行编辑：高建男

责任编辑：张伟男，丁效，崔一鸣，李忠阳

编辑：王若珂，钟蔚弘，彭湃，朱文轩，冯晨，杜佳琪，牟虹霖，张馨

专知便捷查看