论文名称:Cross-Lingual BERT Transformation for Zero-Shot Dependency Parsing
论文作者:王宇轩,车万翔,郭江,刘一佳,刘挺
原创作者:王宇轩
下载链接:https://www.aclweb.org/anthology/D19-1575/
转载须注明出处:哈工大SCIR
1.简介
跨语言词向量对于跨语言迁移学习具有重要意义。本文提出一种简单快捷的离线跨语言BERT投射方法,该方法能够利用预训练好的BERT模型生成跨语言上下文相关词向量。我们在零样本跨语言依存分析任务中实验了这种词向量,取得了远超使用传统跨语言上下文无关词向量方法的目前最好结果。我们还将这种词向量与XLM(一种使用跨语言数据重新训练BERT的方法)进行了对比,实验表明在与该方法取得相近结果的情况下,我们的方法所需的训练数据和计算资源远少于XLM,同时训练速度也更快。
我们公布了代码和训练好的17种语言投射到英语的模型,使用这些模型可以快速将不同语言的BERT表示向量投射到同一语义空间中。
代码及模型路径为:
https://github.com/WangYuxuan93/CLBT
2.背景和动机
大部分现有的跨语言上下文相关词向量训练方法采用在线学习(On-Line Learning)策略,首先从头开始利用跨语言数据训练语言模型,之后从中抽取跨语言词向量。
这种方法不但需要大量计算资源和跨语言数据,而且训练时会花费大量时间。
为了解决这一问题,我们提出跨语言BERT投射模型(Cross-Lingual BERT Transformation, CLBT),利用现有的预训练好的单语BERT模型,采用离线学习(Off-Line Learning)策略,训练一个从源语言到目标语言的线性映射,将不同的上下文相关词向量投射到同一语义空间中。
由于在训练时利用了包含上下文的词对齐数据中的语义等价性,我们的方法能够维持词义信息不变。
如图1所示,西班牙语的BERT向量通过CLBT模型投射到英语的语义空间后,两种语言中具有相近语义的向量会更接近。
图1 CLBT模型示意图
3.方法
传统上下文无关的跨语言词向量学习方法一般只需要双语词典作为训练的监督信号。但在CLBT的训练过程中,需要包含上下文信息的词对齐数据,才能获得BERT的表示向量。因此我们使用无监督词对齐工具获得包含上下文的词对作为训练数据。
给定n个包含上下文信息词对,我们首先用预训练好的单语BERT模型获得它们的表示向量
。
训练目标为找到一个合适的线性映射W,使得经过其投射的源语言向量与其对应的目标语言向量距离最小:
当W为正交矩阵时,其可以通过奇异值分解(SVD)求得:
虽然该方法可以很快地计算出线性映射,但随着训练数据的增多,其运行所需内存也会显著增大,因此我们还尝试了用梯度下降(GD)方法求解该问题,并将结果与SVD方法进行了对比。
我们在Universal Dependency Treebanks (UD v2.2)上选取了18种语言进行了实验,其中英语为源语言,其它语言为目标语言。
在训练时只在英语数据上训练基于图的Biaffine分析器模型,然后在CLBT的跨语言上下文相关词向量的帮助下将该模型直接应用于目标语言上。
我们与3个基线模型进行了对比,其中FT-SVD是此前该数据集上最好的模型,他们利用了跨语言的上下文无关词向量;
mBERT为直接将多语言BERT模型(该模型使用一百余种语言的语料进行训练,但训练时无显式跨语言监督信号)应用到该任务中代替跨语言词向量;
XLM利用跨语言数据从头训练跨语言的语言模型,然后从中抽取跨语言上下文相关词向量。
表1 在UD v2.2数据上的实验结果(LAS)与FT-SVD和mBERT的对比
表1对比了我们的模型与FT-SVD和mBERT,可以看出我们提出的CLBT模型在17种语言中的15种上都显著优于这两种基线方法,且平均LAS比此前该数据集上的最好模型(FT-SVD)高了2.91%。
表2 在UD v2.2数据上的实验结果(LAS)与XLM的对比
表2中对比了我们的CLBT模型与XLM。我们在两个模型都实验了的4种语言上进行了对比,同时列出了二者使用数据量的对比。结果表明在与XLM取得近似效果的情况下,我们的CLBT模型使用的双语训练数据量要远远少于他们。
本文提出了一种基于离线学习的跨语言上下文相关词向量学习方法,显著提高了零样本跨语依存分析的性能。
通过利用公开的预训练好的单语BERT模型,我们的方法能够在利用有限的双语数据快速获取跨语言上下文相关词向量。
由于在训练过程中没有针对依存分析任务进行微调,理论上来说用CLBT模型获得的跨语言上下文相关词向量可以应用到任何跨语言任务中。
长按下图即可关注哈尔滨工业大学社会计算与信息检索研究中心微信公众号『哈工大SCIR』
。