We introduce Trankit, a light-weight Transformer-based Toolkit for multilingual Natural Language Processing (NLP). It provides a trainable pipeline for fundamental NLP tasks over 100 languages, and 90 pretrained pipelines for 56 languages. Built on a state-of-the-art pretrained language model, Trankit significantly outperforms prior multilingual NLP pipelines over sentence segmentation, part-of-speech tagging, morphological feature tagging, and dependency parsing while maintaining competitive performance for tokenization, multi-word token expansion, and lemmatization over 90 Universal Dependencies treebanks. Despite the use of a large pretrained transformer, our toolkit is still efficient in memory usage and speed. This is achieved by our novel plug-and-play mechanism with Adapters where a multilingual pretrained transformer is shared across pipelines for different languages. Our toolkit along with pretrained models and code are publicly available at: https://github.com/nlp-uoregon/trankit. A demo website for our toolkit is also available at: http://nlp.uoregon.edu/trankit. Finally, we create a demo video for Trankit at: https://youtu.be/q0KGP3zGjGc.


翻译:我们引进了Trankit, 这是一种基于轻量级变异器的多语言自然语言处理工具(NLP),它为NLP100多种语言的基本任务和56种语言的90个预先训练管道提供了可培训的管道。在最先进的预先训练语言模式上,Trankit大大优于以前多语言的NLP管道,涉及句分割、部分语音标签、形态特征标记和依赖性区分,同时保持象征性化、多词符号扩展和90多个普遍附属树库的竞争性工作。尽管使用了大型预先训练的变异器,但我们的工具包在记忆使用和速度方面仍然很有效率。这是通过我们与适应者的新颖的插座和游戏机制实现的,在那里,不同语言的管道之间共享一种多语言的预先训练变异器。我们的工具包以及预先训练的模式和代码可以公开查阅:https://github.com/nlp-oregon/trankit。我们工具包的演示网站也在以下网址上:http://Kngoustrov.

0
下载
关闭预览

相关内容

Processing 是一门开源编程语言和与之配套的集成开发环境(IDE)的名称。Processing 在电子艺术和视觉设计社区被用来教授编程基础,并运用于大量的新媒体和互动艺术作品中。
最新《Transformers模型》教程,64页ppt
专知会员服务
312+阅读 · 2020年11月26日
必须收藏!MIT-Gilbert老爷子《矩阵图解》,一张图看透矩阵
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
92+阅读 · 2019年10月16日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
国内外自然语言处理(NLP)项目主页及其研究组
数据挖掘入门与实战
24+阅读 · 2017年11月28日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
8+阅读 · 2020年10月9日
Arxiv
23+阅读 · 2020年9月16日
Arxiv
6+阅读 · 2019年9月4日
Arxiv
6+阅读 · 2019年7月11日
VIP会员
相关论文
Arxiv
19+阅读 · 2020年12月23日
Arxiv
8+阅读 · 2020年10月9日
Arxiv
23+阅读 · 2020年9月16日
Arxiv
6+阅读 · 2019年9月4日
Arxiv
6+阅读 · 2019年7月11日
Top
微信扫码咨询专知VIP会员