中文自然语言处理开放任务介绍、数据集、当前最佳结果分享

2019 年 8 月 15 日 深度学习与NLP

本文整理了中文自然语言处理相关开放任务，详细任务说明，数据集，相关评价指标，以及当前最佳结果整理。涉及指代消歧，对话状态管理，情绪分类，实体链接，实体标注 (Entity Tagging)，语言模型，机器翻译，词性标注，问答，关系抽取等任务。

本文内容整理自滴滴NLP实验室Wiki：https://chinesenlp.xyz/#/

指代消歧 (Co-reference Resolution)

对话状态管理 (Dialogue State Management)

情绪分类 (Emotion Classification)

实体链接 (Entity Linking)

实体标注 (Entity Tagging)

语言模型 (Language Modeling)

机器翻译 (Machine Translation)

词性标注 (POS Tagging)

问答 (Question Answering)

关系抽取 (Relation Extraction)

情感分析 (Sentiment Analysis)

繁简转化 (Simplified/traditional Conversion)

拼写纠正 (Spell Correction)

文本摘要 (Text Summarization)

话题分类 (Topic Classification)

音译 (Transliteration)

词向量 (Word Embedding)

中文分词 (Word Segmentation)

中文指代消歧 (Co-reference Resolution)

背景

指代消歧 (co-reference resolution) 是指标识一段文本以及将这些文本与其他具有相同指代内容的文本连接起来。有时这些文本片段的长度为0，表示省略了的代词 (pronouns) 或是名词 (nouns)。

示例

输入:

我的姐姐给我她的狗。很喜欢.

输出:

[我]0的[姐姐]1给[我]0[她]1的[狗]2。[]0很喜欢[]2.

标准评价指标

以下三种精确率 (Precision) /召回率 (Recall) 得到的F1值 (F1-scores) 的平均值:

· MUC.

· B-cubed.

· Entity-based CEAF.

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/co-reference_resolution

中文对话状态管理 (Dialogue State Management)

背景

在面向任务的对话系统中，对话状态管理（dialogue state management）系统将用户意图 (user intent) 作为输入，与知识库交互，并预测系统的下一个动作 (action)。自然语言理解组件（NLU）负责分析用户意图，该组件有时与对话状态管理（DM）系统结合成为一个单一的端到端学习组件。系统的下一个动作 (action) 通常包括两种类型：对话动作类型 (dialogue act type) 和插槽值对 (slot-value pairs)。给定下一个系统动作，自然语言生成组件（NLG）将生成对用户的回复。

标准评价指标

分类准确率 (Accuracy):

· 句子级别.

· 对话级别。一个对话是正确的当且仅当该对话中的所有句子都被准确的预测了。

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/dialogue_state_management

中文情绪分类 (Emotion Classification)

背景

情绪分类 (Emotion Classification) 旨在识别叙述者的情绪状态。与情感分析 (Sentiment Analysis) 不同的是，情感分析着重于叙述者对其叙述对象的观点。

示例

输入:

讨厌！你骗我！

输出:

生气

标准评价指标

· 分类准确率(Accuracy).

· F1值.

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/emotion_classification

中文实体链接 (Entity Linking)

背景

实体链接识别文本片段并将它们与标准数据库，知识库，地名词典，维基百科页面等中的对应条目进行链接。文本片段除了专有名词 (proper noun) (例如"Bob") 外，还包括指代名词 (nominals)，例如 "the player"。

示例

输入:

美国国防部长马蒂斯说，与首尔举行的名为“秃鹫”的军事演习每年春天在韩国进行，但2019年将“缩小规模”。

输出:

[美国]wiki/United_States国防部长[马蒂斯]wiki/Jim_Mattis说，与[首尔]wiki/Seoul举行的名为“秃鹫”的军事演习每年春天在[韩国]wiki/South_Korea进行，但2019年将“缩小规模”。

标准评价指标

· F-score: 正确识别实体并链接到知识库中正确的概念。

· 在知识库中找不到对应概念的实体 (NIL mentions) 需要被聚类, 并用CEAF(B-cubed的引申指标)指标评价聚类效果。

TAC-KBP / EDL 2017

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/entity_linking

中文实体标注 (Entity Tagging)

背景

实体标注 (Entity Tagging) 任务是识别实体概念在文本中的提及 (entity mention) 并且标注对应的类型，比如人（PER），组织（ORG），地缘政治实体（GPE），地点（LOC）等。文本提及除了专有名词 (proper noun) (例如"Bob") 外，还包括指代名词 (nominals)，例如 "the player"。

示例

输入:

美国国防部长马蒂斯说，与首尔举行的名为“秃鹫”的军事演习每年春天在韩国进行，但2019年将“缩小规模”。

输出:

[美国]GPE国防部长[马蒂斯]PER说，与[首尔]GPE举行的名为“秃鹫”的军事演习每年春天在[韩国]GPE进行，但[2019年]TMP将“缩小规模”。

标准评价指标

F-score: 选择正确的文本提及（“mention”）并指定正确类型的。

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/entity_tagging

中文语言模型 (Language Modeling)

背景

语言模型 (language model) 可以对计算任何的文本字符串或语料库的概率。好的语言模型对于未观察过的流畅的文本应该能输出一个高概率或者低混淆度(perplexity),反之则输出低概率。

示例

输入:

我们体育界是有信心做到为北京2022年冬季奥运会提供坚实的人才基础

输出:

60.2 混淆度(perplexity)

标准评价指标

· 混淆度 (Perplexity) 用来衡量一个语言模型在未见过的的字符串S上的表现。对于一个长度为N的字符串S，语言模型给出概率P(S)，对应的混淆度 (Perplexity)为 2^{-(1/N) log2 P(S)}。其中字符串长度单位可以是字符 (characters) 也可以是单词 (words).

o 语言模型通常以递增方式生成概率, 每个词 (token) 基于左侧的信息得到一个 P(S_i)，对每个P(S_i)取对数并求和即得到混淆度 (Perplexity)公式: 2^{-(1/N) sum_i log2 P(S_i)}.

· 另一个相关的评价指标是 bits-per-character (bpc)，当计算基于字符长度单位的混淆度 (Perplexity)时，Perplexity = 2^bpc.

· 英文语言模型有很成熟的榜单 (leaderboard) 可以追踪最新的结果here . 英文语言模型相关的标准数据集通常都遵循着以下规范:

o 训练集 (Train)/开发集 (dev)/测试集 (test)的标准划分规范

o 语言模型预测的单位（通常是单词而不是字符）

o 固定的 word tokenization

o 处理未在词表中出现的单词 (out-of-vocabulary (OOV))

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/language_modeling

中文机器翻译 (Machine Translation)

背景

机器翻译（MT）将文本从一种语言转换翻译为另一种语言。这里, 我们专注于源语言(source language)或目标语言 (target language)为中文的任务。

示例

输入:

美中两国可能很快达成一个贸易协议。

输出:

The United States and China may soon reach a trade agreement.

标准评价指标

· 直接评估（人工评判）。Amazon Mechnical Turk上的标注人员会看到一个系统生成的翻译和一个人工翻译，然后回答这样一个问题：“系统翻译有多么精确的表达了人工翻译的含义？”

· Bleu score (Papineni et al 02 ).

o Bleu-n4r4: 词级别 {1,2,3,4}-gram 匹配, 与4条人工参考翻译译文比较

§ brevity penalty: 一个系数，用来惩罚长度短于参考翻译的机器翻译结果。

§ 标准的Bleu计算流程会先对参考译文和机器翻译结果进行符号化 (tokenizition)。

§ 如果中文是目标 (target) 语言, 则使用字符级别 {1,2,3,4}-gram匹配。

§ 当只有1条人工参考翻译译文时使用Bleu-n4r1评估。

o 标准Bleu有很多重要的变种:

§ 大小写敏感 vs. 大小写不敏感

§ Brevity penalty 触发条件: 当机器翻译结果短于最短的参考译文 (reference) 或者短于最接近的参考译文 (reference)。

· NIST. Bleu的一种变体，赋予少见的n-gram更高的权重。

· TER (Translation Edit Rate). 计算机器翻译与人工参考译文之间的编辑距离 (Edit distance)。

· BLEU-SBP ((Chiang et al 08)[http://aclweb.org/anthology/D08-1064] ). 解决了Bleu的解耦（decomposability) 问题，在Bleu和单词错误率取得一个折中。

· HTER. 修改为一个良好的翻译所需要的人工编辑次数 (the number of edits)。

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/machine_translation

中文词性标注 (Part-of-speech tagging)

背景

词性标注任务是将给定句子中的每个单词从给定标签组 (tag set)中赋予一个词性标签 (part-of-speech tag)。

示例

输入:

快速的棕色狐狸跳过了懒惰的狗

输出:

[快速] VA [的] DEC [棕色] NN [狐狸] NN [跳过] VV [了] AS [懒惰] VA [的] DEC [狗] NN

标准评价指标

在联合分割标注的任务 (the joint segmentation and tagging task) 中，计算基于词级别 (word-level) 的精确率 (Precision)和召回率 (Recall)，以及F1-score.

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/pos_tagging

中文问答 (Question Answering)

背景

问答 (question answering) 任务试图回答自然语言形式提出的问题. 答案有可能来自结构化的数据库中，也可能来自非结构化的文本片段。

示例

输入:

世界上最大的国家是什么?

输出:

俄国

标准评价指标

· 典型的指标包括了准确性 (accuracy), 完全匹配 (exact match) 以及F1-score。

· 有些任务要求系统能在提供的文本中定位答案，而不是返回一个包含答案的字符串。

· 某些任务的测试集中包括了一些无法从提供的数据库或者文本中给出答案的问题，模型需要返回“不存在答案”才能得分。

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/question_answering

中文关系提取 (Relation Extraction)

背景

给定两个实体 (entity)，识别它们的关系并对关系进行分类。

示例

输入:

[李晓华]和她的丈夫[王大牛]前日一起去[英国]旅行了。

输出:

(entity1: 李晓华, entity2: 王大牛, relation: 夫妻)

标准评价指标

精确率 (Precision), 召回率 (Recall), F1

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/relation_extraction

中文情感分析 (Sentiment Analysis)

背景

情感分析 (Sentiment Analysis) 从文本中识别提取文本的主观态度信息。

示例

输入:

总的感觉这台机器还不错，实用的有：阴阳历显示，时间与日期快速转换, 记事本等。

输出:

正向 (Positive)

标准评价指标

准确度 (Accuracy)

· 在测试集上正确分类的样本的百分比。

F1-score

· 准确率和召回率的一种加权平均指标。

· Wiki百科

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/sentiment_analysis

中文繁简转化 (Simplified/Traditional Conversion)

背景

简体中文/繁体中文转换将简体中文字符转换为繁体中文字符，或反之。

示例

输入:

苟利国家生死以,岂因祸福避趋之.

输出:

苟利國家生死以,豈因禍福避趨之.

标准评价指标

准确率(Accuracy)

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/simplified_traditional_Chinese_conversion

中文拼写纠错 (Spell Correction)

背景

拼写纠错 (Spell Correction)任务的目标是在文本中查找并更正拼写错误 (typographical errors).

示例

输入:

1986年毕业于国防科技大学计算机应用专业，获学时学位。

输出:

1986年毕业于国防科技大学计算机应用专业，获学士学位。

(时 -> 士)

标准评价指标

· 识别(Detection): 识别一段文字中所有拼写错误字符的位置，应该做到与正确参考 (gold standard) 相同.

· 纠正(Correction): 识别的错误字符以及纠正错误字符，应与正确参考 (gold standard)相同.

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/spell_correction

中文文本摘要 (Text Summarization)

背景

文本摘要任务的输入是长的文本文档，任务的目标是将较长的文本转换成简短，流畅而准确的文本摘要。

示例

输入:

较早进入中国市场的星巴克，是不少小资钟情的品牌。相比在美国的平民形象，星巴克在中国就显得“高端”得多。用料并无差别的一杯中杯美式咖啡，在美国仅约合人民币12元，国内要卖21元，相当于贵了75%。第一财经日报

输出:

媒体称星巴克美式咖啡售价中国比美国贵75%。

标准评价指标

ROUGE将自动生成的摘要与参考摘要进行比较, 其中ROUGE-1衡量unigram匹配情况，ROUGE-2衡量bigram匹配，ROUGE-L记录最长的公共子序列。ROUGE指标的计算可以以字符 (character) 为单位也能以字 (word) 为单位。

具体实现:

· http://www.berouge.com/Pages/default.aspx

· https://github.com/lancopku/superAE/blob/master/data/script/PythonROUGE.py

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/text_summarization

中文话题分类 (Topic Classification)

背景

话题分类 (Topic Classification) 根据文本主题内容为文本赋予标签或类别。主题 (topic) 有时广泛，类似于流派（新闻，体育，艺术），但有时也会有像标签 (hashtag) 一样的细粒度。

示例

输入:

[国足]有信心了中国国奥队取得热身赛三连胜

输出:

体育

标准评价指标

· 准确率 (Accuracy): 正确分类的样本的百分比。

THUCNews.

新浪新闻RSS订阅频道数据，数据时间范围从2005年到2011年，其中包含7400万条新闻文件（2.19 GB），14个主题，全部采用UTF-8纯文本格式。

评价指标

· Accuracy

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/topic_classification

中文音译 (Transliteration)

背景

音译任务通常在使用不同字母和声音系统的语言之间翻译专有名词和技术术语。

示例

输入:

约翰伍兹 (yue han wu zi)

输出:

John Woods

标准评价指标

· Word Accuracy in Top-1 (ACC)

· Fuzziness in Top-1 (Mean F-score)

· Mean Reciprocal Rank (MRR)

· MAP measures precision

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/transliteration

中文词向量 (Word Embeddings)

背景

词向量 (Word Embeddings)通过对大量的文本语料进行训练，对每一个词 (word type) 返回一个n维的实数向量。向量表征了每个词的单词的句法和语义信息，这些信息可用于解决各种NLP任务。在中文任务中，词向量的单位除了词 (word) 以外也可以是字 (character) 或者 sub-character.

示例

输入:

大文本语料库

输出:

vec(“查询”) = [-0.059569, 0.126913, 0.273161, 0.225467, -0.185914, 0.018743, -0.18434, 0.083859, -0.115781, -0.216993, 0.063437, -0.005511, 0.276968,…, 0.254486]

标准评价指标

词向量的表现既可以进行内部任务 (intrinsically) 评估(比如观察相似的单词是否具有相近的词向量)，也可以通过外部任务 (extrinsically) 的方式评估，既通过使用新的词向量能为下游NLP任务(例如情感分析)的结果带来多少提升。

内部任务评估(intrinsic evaluation)主要关注:

词语相关性 (word relatedness)：在中文词汇相似性数据集wordsim-240和wordsim-296（英语相关资源的翻译）上，人类标记分数与词向量的內积之间的Spearman correlation (⍴)。

单词类比 (word analogy)：评估单词类比任务的准确率（例如：“男人：女人::父亲：X”，其中X由余弦相似性 (cosine distance) 选择）单词类比任务通常包括以下类型的词（1）国家首都（2）省份（3）家庭关系 (family relationships)

外部任务评估(extrinsic evaluation):

· 在中文情感分析 (sentiment analysis) 任务上的准确率 (Accuracy)

· 在中文命名实体识别 (named entity recognition) 任务上的F1 score

· 在中文词性标注 (part-of-speech tagging) 任务上的准确率 (Accuracy)

数据集及State-of-art地址：https://chinesenlp.xyz/#/zh/docs/word_embedding

中文分词 (Word Segmentation)

背景