【COMPTEXT2022教程】跨语言监督文本分类，41页ppt - 专知VIP

会员服务 ·

8

文本分类 · 跨语言表示学习 ·

2022 年 6 月 14 日

【COMPTEXT2022教程】跨语言监督文本分类，41页ppt

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本教程介绍常用的处理多语言语料库的方法，并讨论了它们各自的优缺点。然后，研讨会通过一个应用的例子，包括免费机器翻译，多语言句子和单词嵌入，以及时间允许的多语言Transformer。

大部分的政治文本集是多语言的，主要是进行比较定量分析。然而，现有的跨语言文本分析方法需要依赖语言上合格的人工编码人员、人工翻译人员或可靠的机器翻译，因此往往阻碍了比较研究。在本文中，我提出了一种依赖于多语言文本嵌入的替代方法:使用公开的多语言模型将不同语言编写的文本嵌入到一个联合语义空间中。然后将得到的文本嵌入作为输入来训练监督机器学习分类器。为了验证所提出的方法，我在三个不同的政治语料库上进行了一系列的文本分类实验。这些实验表明，训练于多语言文本嵌入的分类器通过了三个重要的测试:它们对伸出文本的分类与训练于单语言或翻译文本的可比分类器一样准确。它们在不同语言间的执行大体上是一致的。他们对用训练数据中没有的语言编写的文本进行分类，预测性能几乎没有损失。综合来看，这些结果为多语言文本嵌入提供了一种可靠的、可复制的、经济有效的多语言文本分类方法。因此，这项研究有助于新兴的方法论文献在政治科学的多语种定量文本分析。

成为VIP会员查看完整内容

18

相关内容

文本分类

文本分类（Text Classification）任务是根据给定文档的内容或主题，自动分配预先定义的类别标签。

小数据如何学习？佐治亚理工杨笛一等《有限文本数据学习》ACL2022教程，阐述最新前沿技术，附Slides

小数据如何学习？佐治亚理工杨笛一等《有限文本数据学习》ACL2022教程，阐述最新前沿技术，附Slides

专知会员服务

34+阅读 · 2022年5月23日

【EACL2021教程】无监督神经机器翻译，125页ppt

【EACL2021教程】无监督神经机器翻译，125页ppt

专知会员服务

24+阅读 · 2021年11月13日

事件研究进展到哪？ACL2021这份《事件自然语言处理》教程必看！附269页ppt

事件研究进展到哪？ACL2021这份《事件自然语言处理》教程必看！附269页ppt

专知会员服务

77+阅读 · 2021年7月13日

【ICML2020】文本摘要生成模型PEGASUS

【ICML2020】文本摘要生成模型PEGASUS

专知会员服务

35+阅读 · 2020年8月23日

【ICML2020-Google】预训练提取的空白句子以便进行抽象摘要

【ICML2020-Google】预训练提取的空白句子以便进行抽象摘要

专知会员服务

20+阅读 · 2020年7月1日

EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用

EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用

专知

0+阅读 · 2022年1月5日

赛尔原创@EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用

赛尔原创@EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用

哈工大SCIR

1+阅读 · 2021年12月31日

【EACL2021教程】无监督神经机器翻译，125页ppt

【EACL2021教程】无监督神经机器翻译，125页ppt

专知

0+阅读 · 2021年11月13日

【论文分享】ACL 2020 细粒度情感分析方法

【论文分享】ACL 2020 细粒度情感分析方法

深度学习自然语言处理

10+阅读 · 2020年8月20日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

汉语句法分析中的自动歧义识别和分类问题研究

国家自然科学基金

0+阅读 · 2013年12月31日

维、哈、柯跨语言内容过滤关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

汉藏双语跨语言语音转换中的关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

跨语言信息检索中的机器翻译研究

国家自然科学基金

2+阅读 · 2011年12月31日

跨语言文本复制检测研究

国家自然科学基金

0+阅读 · 2009年12月31日

Benchmarking zero-shot and few-shot approaches for tokenization, tagging, and dependency parsing of Tagalog text

Arxiv

0+阅读 · 2022年8月3日

Unsupervised Domain Clusters in Pretrained Language Models

Arxiv

11+阅读 · 2020年4月5日

Data Augmentation using Pre-trained Transformer Models

Arxiv

17+阅读 · 2020年3月4日

KG-BERT: BERT for Knowledge Graph Completion

Arxiv

20+阅读 · 2019年9月7日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

VIP会员

相关主题

跨语言表示学习

相关VIP内容

小数据如何学习？佐治亚理工杨笛一等《有限文本数据学习》ACL2022教程，阐述最新前沿技术，附Slides

小数据如何学习？佐治亚理工杨笛一等《有限文本数据学习》ACL2022教程，阐述最新前沿技术，附Slides

专知会员服务

34+阅读 · 2022年5月23日

【EACL2021教程】无监督神经机器翻译，125页ppt

【EACL2021教程】无监督神经机器翻译，125页ppt

专知会员服务

24+阅读 · 2021年11月13日

事件研究进展到哪？ACL2021这份《事件自然语言处理》教程必看！附269页ppt

事件研究进展到哪？ACL2021这份《事件自然语言处理》教程必看！附269页ppt

专知会员服务

77+阅读 · 2021年7月13日

【ICML2020】文本摘要生成模型PEGASUS

【ICML2020】文本摘要生成模型PEGASUS

专知会员服务

35+阅读 · 2020年8月23日

【ICML2020-Google】预训练提取的空白句子以便进行抽象摘要

【ICML2020-Google】预训练提取的空白句子以便进行抽象摘要

专知会员服务

20+阅读 · 2020年7月1日

热门VIP内容

开通专知VIP会员享更多权益服务

《基于AI的动态任务分配策略实现多智能体系统有意义人类控制》报告

《超越连接：AI驱动网络未来愿景》最新报告

人工智能赋能多域作战：能力与挑战

《战场空间决策优势：AI基础与应用研究》总结报告

相关资讯

EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用

EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用

专知

0+阅读 · 2022年1月5日

赛尔原创@EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用

赛尔原创@EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用

哈工大SCIR

1+阅读 · 2021年12月31日

【EACL2021教程】无监督神经机器翻译，125页ppt

【EACL2021教程】无监督神经机器翻译，125页ppt

专知

0+阅读 · 2021年11月13日

【论文分享】ACL 2020 细粒度情感分析方法

【论文分享】ACL 2020 细粒度情感分析方法

深度学习自然语言处理

10+阅读 · 2020年8月20日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

相关基金

汉语句法分析中的自动歧义识别和分类问题研究

国家自然科学基金

0+阅读 · 2013年12月31日

维、哈、柯跨语言内容过滤关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

汉藏双语跨语言语音转换中的关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

跨语言信息检索中的机器翻译研究

国家自然科学基金

2+阅读 · 2011年12月31日

跨语言文本复制检测研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Benchmarking zero-shot and few-shot approaches for tokenization, tagging, and dependency parsing of Tagalog text

Arxiv

0+阅读 · 2022年8月3日

Unsupervised Domain Clusters in Pretrained Language Models

Arxiv

11+阅读 · 2020年4月5日

Data Augmentation using Pre-trained Transformer Models

Arxiv

17+阅读 · 2020年3月4日

KG-BERT: BERT for Knowledge Graph Completion

Arxiv

20+阅读 · 2019年9月7日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

微信扫码咨询专知VIP会员