本教程介绍常用的处理多语言语料库的方法,并讨论了它们各自的优缺点。然后,研讨会通过一个应用的例子,包括免费机器翻译,多语言句子和单词嵌入,以及时间允许的多语言Transformer。

大部分的政治文本集是多语言的,主要是进行比较定量分析。然而,现有的跨语言文本分析方法需要依赖语言上合格的人工编码人员、人工翻译人员或可靠的机器翻译,因此往往阻碍了比较研究。在本文中,我提出了一种依赖于多语言文本嵌入的替代方法:使用公开的多语言模型将不同语言编写的文本嵌入到一个联合语义空间中。然后将得到的文本嵌入作为输入来训练监督机器学习分类器。为了验证所提出的方法,我在三个不同的政治语料库上进行了一系列的文本分类实验。这些实验表明,训练于多语言文本嵌入的分类器通过了三个重要的测试:它们对伸出文本的分类与训练于单语言或翻译文本的可比分类器一样准确。它们在不同语言间的执行大体上是一致的。他们对用训练数据中没有的语言编写的文本进行分类,预测性能几乎没有损失。综合来看,这些结果为多语言文本嵌入提供了一种可靠的、可复制的、经济有效的多语言文本分类方法。因此,这项研究有助于新兴的方法论文献在政治科学的多语种定量文本分析。

成为VIP会员查看完整内容
16

相关内容

文本分类(Text Classification)任务是根据给定文档的内容或主题,自动分配预先定义的类别标签。
【EACL2021教程】无监督神经机器翻译,125页ppt
专知会员服务
23+阅读 · 2021年11月13日
专知会员服务
24+阅读 · 2021年6月17日
最新《生成式语言模型: 信息论视角》报告,292页ppt
专知会员服务
28+阅读 · 2020年11月9日
【ICML2020】文本摘要生成模型PEGASUS
专知会员服务
34+阅读 · 2020年8月23日
【论文分享】ACL 2020 细粒度情感分析方法
深度学习自然语言处理
10+阅读 · 2020年8月20日
最新论文解读 | 基于预训练自然语言生成的文本摘要方法
微软研究院AI头条
57+阅读 · 2019年3月19日
下载 | 384页NLP多任务联合学习教程(PPT)
机器学习算法与Python学习
20+阅读 · 2018年11月22日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Arxiv
13+阅读 · 2022年1月20日
Arxiv
14+阅读 · 2020年1月27日
Arxiv
20+阅读 · 2019年9月7日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员