We present iNLTK, an open-source NLP library consisting of pre-trained language models and out-of-the-box support for Paraphrase Generation, Textual Similarity, Sentence Embeddings, Word Embeddings, Tokenization and Text Generation in 13 Indic Languages. By using pre-trained models from iNLTK for text classification on publicly available datasets, we significantly outperform previously reported results. On these datasets, we also show that by using pre-trained models and paraphrases from iNLTK, we can achieve more than 95% of the previous best performance by using less than 10% of the training data. iNLTK is already being widely used by the community and has 40,000+ downloads, 600+ stars and 100+ forks on GitHub. The library is available at https://github.com/goru001/inltk.


翻译:我们展示了iNLTK,这是一个开放源码的NLP图书馆,由预先培训的语言模型和对13种印度语的参数生成、文字相似性、句式嵌入式、文字嵌入、文字嵌入、调制和文本生成的框外支持组成。我们使用iNLTK的预培训模型对公开数据集进行文本分类,大大优于以前报告的结果。在这些数据集上,我们还显示,通过使用预先培训的模型和iNLTK的解说,我们可以通过使用不到10%的培训数据实现95%以上的前最佳性能。iNLTK已被社区广泛使用,在GitHub上已有40 000+下载、600+恒星和100+叉。图书馆可在https://github.com/goru001/inltk上查阅。

0
下载
关闭预览

相关内容

Natural Language Toolkit,自然语言处理工具包,在NLP领域中,最常使用的一个Python库。
【课程推荐】普林斯顿陈丹琦COS 484: 自然语言处理课程
专知会员服务
82+阅读 · 2019年12月11日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
基于PyTorch/TorchText的自然语言处理库
专知
27+阅读 · 2019年4月22日
资源 | Python 中文书籍大集合
AI研习社
13+阅读 · 2018年12月20日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
21+阅读 · 2019年3月25日
Arxiv
6+阅读 · 2018年11月1日
Arxiv
3+阅读 · 2018年3月2日
Arxiv
5+阅读 · 2018年1月18日
VIP会员
相关资讯
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
基于PyTorch/TorchText的自然语言处理库
专知
27+阅读 · 2019年4月22日
资源 | Python 中文书籍大集合
AI研习社
13+阅读 · 2018年12月20日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
Top
微信扫码咨询专知VIP会员