论文作者 | 张檬,刘洋,栾焕博,孙茂松(清华的数学)
特约记者 | 何伟栋(中国科学技术大学)
在第八期“论文访谈间”里,我们介绍了如何利用生成对抗网络(GAN)实现双语词典构建任务。
众所周知,生成对抗网络一大劣势在于训练困难。来自清华大学的张檬博士、刘洋老师、栾焕博老师和孙茂松老师在此基础上,创新地将双语词典构建的映射学习问题建模成最小化分布之间距离的优化问题,取得了良好的效果。
相关工作“Earth Mover’s Distance Minimization for Unsupervised Bilingual Lexicon Induction”发表在自然语言处理顶会 EMNLP2017 上。
本文的方法是基于词向量的,也就是说,首先利用两种语言的单语语料将它们的词汇表示成向量的形式,由此两种语言的词汇将分布在两个不同的向量空间中。
前人在研究中观察到这两个向量空间的结构存在相似性,因而可以使用一个线性映射把这两个空间联系起来。然而为了得到这个线性映射,往往需要使用大量种子翻译词对作为监督信号来学习这个线性映射,而本文则希望完全不使用任何双语监督信号。所以如何设计方法进行有效的学习是这个场景下最大的挑战。
△ 图1:建模方法
本文方法的基本思路是将语言空间中的词向量视为概率分布,然后寻找一个映射,使得映射后的源语言词向量分布和目标语言词向量分布尽可能接近,如图 1 所示。
由于问题转化成了分布之间距离的最小化,相当于上升到了词汇表级别,所以就不需要词汇级别的种子翻译词对作为监督信号进行学习了。于是,问题的关键变成了寻找一个分布之间距离的度量,它既要适合词汇翻译这个任务场景,又要宜于优化。
根据作者之前研究的经验,他们认为 earth mover’s distance (EMD) 是适合这个任务的距离度量,尤其是它能自然地处理一词多译的现象。同时由于上升到了分布层面的距离,那么 EMD 表征的距离可以自然地作为语言之间距离的一个反映。分布层面距离的优化一般是比较困难的,本文探索了两种方案,两种方案的映射均为一个矩阵,后者将其限制为正交矩阵而前者没有。
第一种方案是 Wasserstein GAN (WGAN)。WGAN 最初就是为了解决原始 GAN 训练困难而提出的,通过优化 EMD 来得到生成器。作者在实验中发现 EMD 与准确率吻合得很好,即可以准确地指示训练过程。尽管在此方案里并没有限制生成器为正交矩阵,在实验结果里却神奇地发现当训练得较好时,生成器接近于正交阵,由此为第二种方案的限制提供了支持。
第二种方案将生成器限制为正交矩阵,直接优化 EMD。由于此问题是一个 NP 难问题,作者通过一种交替最小化的方法,保证结果收敛到局部最小值。
两种方案各有优劣,前者能得到较好的结果但是不够稳定,后者由于收敛到的仅是局部最小值往往性能不够好。所以作者结合了两种方法,首先利用第一种方案得到一个较好的映射,作为第二种方案的初始参数进行优化,来得到最终的结果。
在实验设计上,作者分别与基于种子翻译词对的 Translation matrix (TM) 和 Isometric alignment (IA) 方法进行了比较。在实验过程中,这些方法输入的词向量均为利用 word2vec 的 CBOW 模型训练得到的词向量。
结果发现,基于种子翻译词对的 TM 和 IA 方法若想达到与本文模型相同的准确率,需要大量的种子翻译词对。除此之外,作者还探究了将 EMD 距离作为语言之间距离的合理性。
对话作者
关于文章的创新点,作者认为一个是将双语词典构建的映射学习问题建模成最小化分布之间距离的优化问题,并且选择 EMD 作为词汇翻译任务合理的分布距离度量,并探索了它的优化方案。同时将 EMD 表征的距离作为语言之间距离的度量也是一条新颖的思路。
关于文章的应用和意义,一方面为许多跨语言处理任务提供了重要资源,尤其是为完全缺乏双语资源的小语种和专门领域开辟了与其他语言连接的可能。此外,只使用单语语料就能构建双语词典意味着语言在词汇层面的某种同态性,佐证了人类语言在概念表示上可能存在的一致性。
另一方面,从计算语言学的角度,只利用单语语料,为语言距离度量提供了新的可能与思路。而语言距离度量在语言学上也有所应用,比如为历史语言寻找相近的现代语言,以便利用现代语言为历史语言构建语言资源。
欢迎点击「阅读原文」查看论文:
Earth Mover’s Distance Minimization for Unsupervised Bilingual Lexicon Induction
关于中国中文信息学会青工委
中国中文信息学会青年工作委员会是中国中文信息学会的下属学术组织,专门面向全国中文信息处理领域的青年学者和学生开展工作。
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。