Probabilistic topic models like Latent Dirichlet Allocation (LDA) have been previously extended to the bilingual setting. A fundamental modeling assumption in several of these extensions is that the input corpora are in the form of document pairs whose constituent documents share a single topic distribution. However, this assumption is strong for comparable corpora that consist of documents thematically similar to an extent only, which are, in turn, the most commonly available or easy to obtain. In this paper we relax this assumption by proposing for the paired documents to have separate, yet bound topic distributions. % a binding mechanism between the distributions of the paired documents. We suggest that the strength of the bound should depend on each pair's semantic similarity. To estimate the similarity of documents that are written in different languages we use cross-lingual word embeddings that are learned with shallow neural networks. We evaluate the proposed binding mechanism by extending two topic models: a bilingual adaptation of LDA that assumes bag-of-words inputs and a model that incorporates part of the text structure in the form of boundaries of semantically coherent segments. To assess the performance of the novel topic models we conduct intrinsic and extrinsic experiments on five bilingual, comparable corpora of English documents with French, German, Italian, Spanish and Portuguese documents. The results demonstrate the efficiency of our approach in terms of both topic coherence measured by the normalized point-wise mutual information, and generalization performance measured by perplexity and in terms of Mean Reciprocal Rank in a cross-lingual document retrieval task for each of the language pairs.


翻译:本文中,我们放宽了这一假设,建议配对文件有分开但有约束性的专题分发。% 是配对文件分发之间的一个约束机制。我们建议,交错文件的强度应取决于每对配对文件的语义相似性。为了估计以不同语言编写的文件的相似性,我们使用跨语言词嵌入的嵌入词,从浅线网络中学习。我们通过扩展两个主题模型来评估拟议的约束机制:双语调整LDA,接受对配对文件的语义、但有约束性的文件分发。我们建议,在配对文件的分发之间,%是一个具有约束力的机制。我们建议,交错文件的强度应取决于每对配对文件的语义相似性。为了估计以不同语言编写的文件的相似性,我们使用跨语言的词嵌入了浅线网络。我们通过扩展了两个主题模型来评估拟议的约束性机制:双语调整LDA,接受经计量的语义投入,以及将文本结构的一部分融入了语义性一致的语义结构中。我们建议,在每段的语义性一致的语义性部分中,用双义性文件的英语测试中,用双义标准测试,用一种语言测试,用一种语言测试,用一种语言测试的英语语言的英语语言的里程,用一种语言测试,用一种语言测试,用一种语言测试,用一种语言的英语语言的里程,用一种语言的里程,用一种语言对等语言的英语语言对等语言进行。

0
下载
关闭预览

相关内容

专知会员服务
35+阅读 · 2021年7月7日
【PKDD2020教程】机器学习不确定性,附88页ppt与视频
专知会员服务
94+阅读 · 2020年10月18日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
【课程】纽约大学 DS-GA 1003 Machine Learning
专知会员服务
45+阅读 · 2019年10月29日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
浅谈贝叶斯和MCMC
AI100
14+阅读 · 2018年6月11日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Arxiv
3+阅读 · 2018年8月27日
Arxiv
3+阅读 · 2018年3月28日
Arxiv
7+阅读 · 2018年1月30日
Arxiv
5+阅读 · 2017年12月29日
Arxiv
3+阅读 · 2017年12月18日
Arxiv
3+阅读 · 2015年5月16日
VIP会员
相关论文
Arxiv
3+阅读 · 2018年8月27日
Arxiv
3+阅读 · 2018年3月28日
Arxiv
7+阅读 · 2018年1月30日
Arxiv
5+阅读 · 2017年12月29日
Arxiv
3+阅读 · 2017年12月18日
Arxiv
3+阅读 · 2015年5月16日
Top
微信扫码咨询专知VIP会员