We present fastHan, an open-source toolkit for four basic tasks in Chinese natural language processing: Chinese word segmentation (CWS), Part-of-Speech (POS) tagging, named entity recognition (NER), and dependency parsing. The backbone of fastHan is a multi-task model based on a pruned BERT, which uses the first 8 layers in BERT. We also provide a 4-layer base model compressed from the 8-layer model. The joint-model is trained and evaluated on 13 corpora of four tasks, yielding near state-of-the-art (SOTA) performance in dependency parsing and NER, achieving SOTA performance in CWS and POS. Besides, fastHan's transferability is also strong, performing much better than popular segmentation tools on a non-training corpus. To better meet the need of practical application, we allow users to use their own labeled data to further fine-tune fastHan. In addition to its small size and excellent performance, fastHan is user-friendly. Implemented as a python package, fastHan isolates users from the internal technical details and is convenient to use. The project is released on Github.


翻译:我们提出了快速汉,这是用于中国自然语言处理的四项基本任务的开放源码工具包:中文单词分割(CWS)、部分语音标记(POS),名称实体识别(NER)和依赖性剖析。快速汉的骨干是一个多任务模型,它基于一个使用BERT头8层的修剪 BERT。我们还从8层模式中压缩了一个四层基础模型。联合模型在13个有4个任务的公司进行培训和评价,在依赖性剖析和净化方面产生接近最先进的艺术(SOTA)性能,在CWS和POS中实现SOTA性能。此外,快速汉的可转移性也很强,比非培训系统中的流行分解工具要好得多。为了更好地满足实际应用的需要,我们允许用户使用自己的标签数据进一步微调快速Han。除了其小规模和出色性能外,快速Han还方便用户使用。快速Han在Python软件包中实施,快速Han的软件是方便地将Gian内部用户隔离。

1
下载
关闭预览

相关内容

Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
【干货】用BRET进行多标签文本分类(附代码)
专知会员服务
84+阅读 · 2019年12月27日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
pytorch中文语言模型bert预训练代码
AINLP
3+阅读 · 2020年7月22日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
【Github】GPT2-Chinese:中文的GPT2训练代码
AINLP
52+阅读 · 2019年8月23日
NLP - 基于 BERT 的中文命名实体识别(NER)
AINLP
466+阅读 · 2019年2月10日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
BERT相关论文、文章和代码资源汇总
AINLP
19+阅读 · 2018年11月17日
Arxiv
11+阅读 · 2019年6月19日
Arxiv
8+阅读 · 2019年3月21日
Arxiv
5+阅读 · 2018年1月18日
VIP会员
相关VIP内容
相关资讯
pytorch中文语言模型bert预训练代码
AINLP
3+阅读 · 2020年7月22日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
【Github】GPT2-Chinese:中文的GPT2训练代码
AINLP
52+阅读 · 2019年8月23日
NLP - 基于 BERT 的中文命名实体识别(NER)
AINLP
466+阅读 · 2019年2月10日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
BERT相关论文、文章和代码资源汇总
AINLP
19+阅读 · 2018年11月17日
Top
微信扫码咨询专知VIP会员