《构想：中文文本标注工具（附开源文本标注工具列表）

2017 年 11 月 12 日 全球人工智能

自然语言处理的大部分任务是监督学习问题。序列标注问题如中文分词、命名实体识别，分类问题如关系识别、情感分析、意图分析等，均需要标注数据进行模型训练。深度学习大行其道的今天，基于深度学习的NLP模型更是数据饥渴。

最前沿的NLP技术往往首先针对英文语料。英文NLP的生态很好，针对不同有意思的问题都有不少大规模语料公开供大家研究，如斯坦福的SQuAD阅读理解语料。中文方面开源语料就少得多，各种英文NLP上的犀利模型和前沿技术都因为中文语料的匮乏很难迁移过来。另一方面，对于一些垂直领域，如医疗、金融、法律、公安等等，专有名词和特有需求甚多，很难将比较general的比如在wikipedia dump上面训练的模型直接拿过来用。

传统人工标注数据的过程往往是繁琐和低效率的。刚标了一个“联想”是公司名，又来一个“联想集团”，再标一次又来一个“联想集团有限公司”，如此的例子令标注过程含有大量的重复劳动。另一方面也没有一个易上手的标注UI，标注工作者往往需要直接按预先定好的格式直接在写字板之类的软件中修改原始数据，格式错误率也较高。

能不能构建一个中文文本的标注工具，可以达到以下两个特点：

标注过程背后含有智能算法，将人工重复劳动降到最低；
标注界面显而易见地友好，让标注操作尽可能简便和符合直觉。

答案是可以的。事实上很多标注工具已经做到了这一点，最先进的如Explosion.ai的Prodigy；然而开发了著名的NLP开源包Spacy的explosion.ai选择了将Prodigy闭源，而Spacy支持中文也仍然遥遥无期。我们希望构建一个开源的中文文本标注工具，而本文很多的技术灵感正是来自Prodigy文档。

主动学习的智能标注算法

流程：

用户标一个label
主动学习的后台算法分为online和offline部分。online部分即时更新模型，可使用诸如SVM、bag of words等尽可能快的传统方法；offline部分当标注数据积累到一定数量时更新模型，可使用准确度较高的深度学习模型。
模型更新后，对尽可能多的example做预测，将确信度排序，取确信度最低的一个example作为待标注例子。重复1的过程。

可以想象如果模型训练得好的话，这个过程将直接忽略掉确信度最大的那些例子，而把所有重点放在分类边界上的那些确信度小的例子。这样可以尽算法所能减少用户端的人工工作量。

online与offline模型互相协作，与用户手动标注的过程一起不断迭代；在最终标注任务完成之后，offline模型可以重新在所有标注数据上重新训练，以达到最好的模型效果。

显而易见的友好标注前端

用户标注的界面应该尽可能符合直觉，让用户完全聚焦在当前的标注任务上。

Prodigy给了一个非常好的demo，每一次的标注只需要用户解决一个case的问题。以文本分类为例，对于算法给出的分类结果，只需要点击“正确”提供正样本，“错误”提供负样本，“略过”将不相关的信息滤除，“Redo”让用户撤回操作，四个功能键以最简模式让用户进行标注操作。

真正应用中，应该还要加入一个用户自己加入标注的交互方式，比如用户可以高亮一个词然后选择是“公司”，或者链接两个实体选择他们的关系等等。

以上是个人觉得的一个智能中文文本标注工具的最大亮点。算法本身还有很多细节需要思考，比如online机器学习算法与offline深度学习算法的协作、中文NLP的特征提取与模型构建、正则规则的引入、word embedding的训练和使用等等。系统本身还要考虑后台存储(SQLite?)和数据导入导出，前端框架选型和开发，前后端交互(django? flask? RestAPI?)等等的问题。下面是Prodigy的简单架构图。

我们希望专注于中文文本标注的功能。前期我们想实现三种中文NLP任务的标注工具：中文命名实体识别，中文关系识别，中文文本分类。未来如果有更多如中文图片问答、中文图片描述之类的任务，我们可以再研究加入图片标注这一块。

我们希望这个工具的开发会是以中文社区的开源协作方式，为整个中文NLP的开源生态做出一点贡献。欢迎你的加入！

附录：几个开源文本标注工具

IEPY

整个工程比较完整，有用户管理系统。前端略重，对用户不是非常友好

代码 https://github.com/machinalis/iepy

说明 http://iepy.readthedocs.io/en/latest/index.html

DeepDive (Mindtagger)

Screenshot of Mindtagger precision task in progress

介绍 http://deepdive.stanford.edu/labeling

前端比较简单，用户界面友好。

前端代码 https://github.com/HazyResearch/mindbender

将DeepDive的corenlp部分转为支持中文的代码尝试：

https://github.com/SongRb/DeepDiveChineseApps

https://github.com/qiangsiwei/DeepDive_Chinese

https://github.com/mcavdar/deepdive/commit/6882178cbd38a5bbbf4eee8b76b1e215537425b2

BRAT

介绍 http://brat.nlplab.org/index.html

在线试用 http://weaver.nlplab.org/~brat/demo/latest/#/

代码 https://github.com/nlplab/brat

SUTDAnnotator

用的不是网页前端而是pythonGUI，但比较轻量。

代码 https://github.com/jiesutd/SUTDAnnotator

Paper https://github.com/jiesutd/SUTDAnnotator/blob/master/lrec2018.pdf

Snorkel

Page: https://hazyresearch.github.io/snorkel/

Github: https://github.com/HazyResearch/snorkel

Demo Paper: https://hazyresearch.github.io/snorkel/pdfs/snorkel_demo.pdf

Slate

Code: https://bitbucket.org/dainkaplan/slate/

Paper: http://www.jlcl.org/2011_Heft2/11.pdf

Prodigy

和著名的spacy是一家做的

Website: https://prodi.gy/docs/

Blog: https://explosion.ai/blog/prodigy-annotation-tool-active-learning

开源：https://github.com/crownpku/Chinese-Annotator

热门文章推荐

周志华：实验表明gcForest是最好的非深度神经网络方法

黑科技｜Adobe出图象技术神器！视频也可以PS了！！

史上第一个被授予公民身份的机器人索菲亚和人对答如流！

浙大90后女黑客在GeekPwn2017上秒破人脸识别系统！

周志华点评AlphaGo Zero：这6大特点非常值得注意！

汤晓鸥教授：人工智能让天下没有难吹的牛!

英伟达发布全球首款人工智能全自动驾驶平台

未来 3~5 年内，哪个方向的机器学习人才最紧缺？

中科院步态识别技术：不看脸 50米内在人群中认出你！

厉害｜黄仁勋狂怼CPU:摩尔定律已死未来属于GPU!

登录查看更多

相关内容

标注

关注 2

基于深度学习的主题模型研究，中文综述，29页pdf，计算机学报

专知会员服务

124+阅读 · 2020年5月20日

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

专知会员服务

108+阅读 · 2020年5月1日

【中科院】命名实体识别技术综述

专知会员服务

157+阅读 · 2020年4月21日

数据标注研究综述，软件学报，19页pdf

专知会员服务

95+阅读 · 2020年2月20日

慕尼黑大学LMU博士论文：自然语言文本神经网络信息提取，240页pdf

专知会员服务

74+阅读 · 2020年1月13日

【NLP| 推荐文章】从统一文本到文本探讨迁移学习的局限性（Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer）

专知会员服务

20+阅读 · 2019年11月24日

资源|Blockchain区块链中文资源阅读列表

专知会员服务

44+阅读 · 2019年11月20日

【AAAI2020论文-清华大学】Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources，最小资源增强的元学习跨语言命名实体识别

专知会员服务

31+阅读 · 2019年11月17日

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

专知会员服务

51+阅读 · 2019年11月8日

中文知识图谱构建技术以及应用的综述

专知会员服务

317+阅读 · 2019年10月19日

别找了，送你 20 个文本数据集

机器学习算法与Python学习

69+阅读 · 2019年5月17日

想要训练中文NLP模型却苦于没数据？是时候支持开源中文了

机器之心

7+阅读 · 2019年2月15日

中文NLP福利！大规模中文自然语言处理语料

新智元

37+阅读 · 2019年2月13日

中文NLP用什么？中文自然语言处理的完整机器处理流程

人工智能头条

61+阅读 · 2018年9月5日

推荐 | 中文文本标注工具Chinese-Annotator（内附多个开源文本标注工具）

黑龙江大学自然语言处理实验室

6+阅读 · 2018年1月17日

【推荐】中文处理(BiLSTM分词)工具包FoolNLTK

机器学习研究会

6+阅读 · 2017年12月27日

怎样构建中文文本标注工具?（附工具、代码、论文等资源）

数据派THU

14+阅读 · 2017年11月26日

构想：中文文本标注工具

炼数成金订阅号

8+阅读 · 2017年11月20日

构想：中文文本标注工具（内附多个开源文本标注工具）

PaperWeekly

8+阅读 · 2017年11月17日

Python 自然语言处理（NLP）工具库汇总

数据挖掘入门与实战

7+阅读 · 2017年9月25日

Hierarchical Adaptive Contextual Bandits for Resource Constraint based Recommendation

Arxiv

5+阅读 · 2020年4月2日

Visual Grounding in Video for Unsupervised Word Translation

Arxiv

7+阅读 · 2020年3月11日

Hierarchical Human Parsing with Typed Part-Relation Reasoning

Arxiv

6+阅读 · 2020年3月10日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

Neural Response Generation with Meta-Words

Arxiv

6+阅读 · 2019年6月14日

Hierarchical Meta Learning

Arxiv

9+阅读 · 2019年4月19日

A Hierarchical Neural Network for Sequence-to-Sequences Learning

Arxiv

4+阅读 · 2018年11月23日

SlugNERDS: A Named Entity Recognition Tool for Open Domain Dialogue Systems

Arxiv

5+阅读 · 2018年5月10日

Identifying Semantic Divergences in Parallel Text without Annotations

Arxiv

3+阅读 · 2018年3月29日

A Deep Reinforcement Learning Chatbot (Short Version)

Arxiv

13+阅读 · 2018年1月20日

VIP会员