本教程介绍常用的处理多语言语料库的方法,并讨论了它们各自的优缺点。然后,研讨会通过一个应用的例子,包括免费机器翻译,多语言句子和单词嵌入,以及时间允许的多语言Transformer。
大部分的政治文本集是多语言的,主要是进行比较定量分析。然而,现有的跨语言文本分析方法需要依赖语言上合格的人工编码人员、人工翻译人员或可靠的机器翻译,因此往往阻碍了比较研究。在本文中,我提出了一种依赖于多语言文本嵌入的替代方法:使用公开的多语言模型将不同语言编写的文本嵌入到一个联合语义空间中。然后将得到的文本嵌入作为输入来训练监督机器学习分类器。为了验证所提出的方法,我在三个不同的政治语料库上进行了一系列的文本分类实验。这些实验表明,训练于多语言文本嵌入的分类器通过了三个重要的测试:它们对伸出文本的分类与训练于单语言或翻译文本的可比分类器一样准确。它们在不同语言间的执行大体上是一致的。他们对用训练数据中没有的语言编写的文本进行分类,预测性能几乎没有损失。综合来看,这些结果为多语言文本嵌入提供了一种可靠的、可复制的、经济有效的多语言文本分类方法。因此,这项研究有助于新兴的方法论文献在政治科学的多语种定量文本分析。