NLP 发展如何？机器之心 SOTA 模型库、知识库告诉你答案

2021 年 3 月 29 日 机器之心

机器之心发布

机器之心编辑部

机器之心《2020-2021 全球 AI 技术趋势发展报告》节选：顶会趋势（NeurIPS）分析。

2021 年伊始，机器之心发布《2020-2021 全球 AI 技术趋势发展报告》，基于顶会、论文及专利等公共数据、机器之心专业领域数据仓库，通过数据挖掘定位七大趋势性 AI 技术领域。

此外，该报告还邀请了近 100 位专家学者通过问卷调查，形成对这七大技术领域近年发展情况、成熟度与未来趋势的综合总结，并基于 2015-2020 年间的开源论文与专利语料，结合机器之心自有的新闻舆论以及模型最佳表现（SOTA）等相关数据库进行了探索性数据分析，并形成了用以帮助技术趋势判定的量化指标 Synced Indicator (SI)。

为了方便从业者把握 AI 技术趋势，机器之心将持续刊载该该报告的节选内容，以下篇幅选自《2020-2021 全球 AI 技术趋势发展报告》第三章「人类语言技术」。

「 3-1 」人类语言技术

3-1-6 最佳模型（SOTA）与机器之心知识库（KB）收录情况

从机器之心 SOTA 模型收录的数量上来看，问答系统相关的模型评估结果条目收录数量最多，占据了 40% 以上的空间，机器翻译次之。语音识别语文本摘要、情感分析这些 NLP 领域常见技术任务在 SOTA 模型收录的数量上占比类似。

图 3-1-6-1 NLP 热门技术任务相关 SOTA 数据情况

从具体的表现上来说，在个别主流语言（如中、英、法等）特定日常语境（如新闻资讯）下，多项人类语言技术下游任务均达到过了「赶超人类」的水平表现：如微软在2018 年研发的对偶学习机器翻译，尤其是在大规模与训练语言模型出现之后， BERT 系列的模型基本对各类 NLP Benchmark 实现了「屠榜」。根据英文通用自然语言理解评测基准 GLUE Benchmark 的最新数据（截至 2020 年 11 月），排行榜名列前茅的模型几乎全是微调后的类 BERT 系大规模预训练语言模型，如排名前三的「MacALBERT+DKM（哈工大讯飞联合实验室）」、「StructBERT+TAPT（阿里达摩院）」以及「ALBERT+DAAF+NAS（中国平安）」，而这些模型在综合总分上均大大领先排行榜第 14 位的人类指标，这也促使了 GLUE 团队在 2019 年提出了更高的自然语言理解评估标准SuperGLUE。

多家企业的大规模预训练语言模型在语言理解方面已经超越了人类水平，其中排行榜头部诸多团队均为中国企业（1-4 名分别为哈工大讯飞联合实验室、阿里达摩院、中国平安、百度，第 9 名为华为诺亚方舟实验室），除此之外则是国际知名互联网科技企业 Google（第 5）、微软（第 6）、以及 Facebook（第 12）等，而它们在综合总分上均超越了目前排行第14 的人类指标。这也是促使 GLUE 相关团队提出更高的原因之一。

图 3-1-6-2 GLUE Benchmark 数据情况（2020 年 11 月）

*GLUE 官方也于 SUPERGLUE 的相关论文上展示了不同模型相对于人类水平在 GLUE Benchmark 上的表现进展，Y 轴是相对于人类水平的表现分数（数据截止于 2019 年相应论文发表时）。

图 3-1-6-3 GLUE Benchmark 收录模型表现情况与人类水平对比

然而，针对具体数据集的「超人类」表现大部分时候并不代表着对应的技术已经成熟到可以替代人类应用。以机器之心SOTA 数据收录最多的问答系统为例，虽然在 SQUAD 上的前 20 名均已超过其设定的人类表现基准，但涉及到具体应用来看，目前最成熟的应用还是局限于执行预设好的特定任务场景（如 IoT 的控制，有标准答案的知识问答等）。这通常是基于单一领域场景实现的，一旦切换使用的领域场景则会表现不佳。与此同时，对于需要结合上下文理解的多轮对话情景也是目前该领域尚在研究的热点方向之一。

即便是专利覆盖率最广的语音识别技术，特定应用场景下的识别准确率其实仍然无法达到预期，更不用说不区分场景的通用型人工智能情况了。小米首席语音科学家、语音识别开源工具 Kaldi 之父 Daniel 认为：「现在业内许多人士认为，语音识别系统的准确度已经很高了，但实际上这种高精准度仅仅针对的是某些特定的语音类型。现阶段，让机器来识别人们日常交流还是比较困难的，尤其是当周围环境掺杂着噪声、音乐且多人同时发声时。也就是说，我们还需要对现有的语音识别技术进行认真打磨。」

基于机器之心知识库 KB 数据显示，人类语言技术方面收录节点和关系数量最多的技术是问答系统，占约 30%，语音识别与机器翻译次之，各占约 20%。技术方法层面，BERT 是 KB 中关联节点最多、收录最前面的语言技术，seq2seq 排名第二。

图 3-1-6-4 NLP 热门技术任务 KB 收录情况

而综合归一化具体节点在不同分类下的数据分布之后得到的数据来看（下图），预训练模型与语音识别的相关节点占比最高，情感分析次之，命名体识别、机器翻译、问答系统等各占比约 10% 左右，整体比较均衡。问答系统的高分布主要来源于其技术分类下词条数量绝对值较高。

图 3-1-6-5 NLP 热门技术任务 KB 收录情况（子类归一化后）

报告全文获取方式

方式一： 扫描下方二维码或阅读原文进入店铺，购买报告

方式二：成为机器之心 PRO-VIP 会员

《2020-2021 全球 AI 技术发展趋势报告》LITE 版已上线机器之心 PRO，如果您是机器之心 PRO-VIP 会员可点击阅读原文，登录 pro.jiqizhxiin.com 直接阅读并下载 LITE 版报告。如您已经是机器之心 PRO-VIP 会员并且需购买完整版，请与您的专属 Pro 助手联系获得 PRO-VIP 会员专属优惠码。

登录查看更多