搜狗开源最新NLP研究成果，打造业内最全机器阅读理解工具包SMRC

会员服务 ·

搜狗开源最新NLP研究成果，打造业内最全机器阅读理解工具包SMRC

2019 年 5 月 30 日 量子位

晓查发自凹非寺
量子位出品 | 公众号 QbitAI

上周，搜狗在GitHub低调发布了机器阅读理解工具包SMRC（Sogou Machine Reading Comprehension）。

这是目前业内最全的TensorFlow版本的阅读理解工具集合，从相关数据集的下载到最后模型的训练和测试，一应俱全。

搜狗此次开源的目的也是为了帮助NLP从业人员快速实现已有的机器理解模型，从而更高效地开发新模型。

近两年来，NLP领域取得了许多突破性进展。但是在机器阅读理解方面开源的资源还是非常少。目前在CoQA上“打榜”的选手中，只有搜狗和微软公开了源代码。

搜狗开源SMRC恰逢其时，填补了该领域稀缺的开源资源。SMRC发布仅短短一周，已经成为该研究方向最热门的开源项目之一。

什么是SMRC？

说到SMRC，就不得不提近年来在NLP领域内的热门问题——机器阅读理解。它的目标是根据给定的问题和文章，在文章中抽取或改写文字片段作为问题的答案。

搜狗将机器阅读理解任务的流水线分解为4个步骤：数据集读取、预处理、模型构建、训练和评估，对每步都进行了抽象和模块化，以简洁的接口呈现。

在搜狗开源的SMRC工具包中，以上每个步骤都可以单独拿来使用，嵌入开发者自己的流程中，保证了整套工具的易用性和可扩展性。

同时，SMRC对已发表的多种机器阅读理解数据集、模型进行了整合或复现。

代码主要分为以下几个模块：

1、数据集读取模块（dataset_reader）

该模块集成了对SQuAD 1.0/2.0、CoQA以及中文数据集CMRC的读取和预处理功能。

2、数据预处理（data、utils）

data部分包含词表构建模块和负责特征变换和数据流的batch生成器。utils用于提取语言学特征。

3、模型构建（nn、models）

nn（神经网络）由机器阅读理解中的常用组件组成，可以快速构建和训练原型模型，避免部分重复工作。model中集成了常见的机器理解模型，如BiDAF、DrQA、FusionNet、QANet等等。

4、模型训练与评估（examples）

这一部分是运行不同模型的示例。

SMRC代码安装使用十分方便。搜狗官方文档以SQuAD 1.0数据集、DrQA模型为例，只需二十几行代码即可实现一个主流机器阅读模型的训练和测试。

既然从模型到数据集得资源如此丰富，为何搜狗还要对它们进行整合？

这是由于部分机器理解模型没有官方实现版本，而其他开源模型由于框架不同，使得开发者在不同平台上需要自己理解、改进并重现，大大降低了开发效率。

针对这些问题，搜狗开源了 “阅读理解工具集合”。但SMRC并不是简单的整合，它还包含了搜狗近年来的NLP领域研究成果。

SMRC中的搜狗技术

搜狗CEO王小川认为搜索的未来是问答，而机器阅读理解是现今问答技术发展的核心之一。

由于搜索、输入法等核心业务的驱动，搜狗在NLP尤其是机器阅读理解领域有着深厚的技术积淀。

可以说，SMRC项目中凝结了搜狗多年来最先进的研究成果。

今年1月，搜狗凭借BERT+Answer Verification(单一模型)登上CoQA榜单第一名，超过了国内外众多知名研究机构和高校，如微软、讯飞、清华、复旦，斯坦福等等。

搜狗在理论研究方向脚步一直不停。今年4月，搜狗与中科院自动化所合作，在信息检索领域的国际顶级学术会议SIGIR 2019上发表论文《基于文档门控制器的开放域问答》，提出了一种新的阅读理解算法。

所谓开放域问答（open-domain question answering），是指在给定任意类型的问题后，从任意资源中取得答案。越来越多的开放域问答方法采用机器阅读理解技术生成答案。

然而，传统基于机器阅读理解的开放域问答技术存在数据噪声大、答案概率偏置等问题，使最后获得的答案效果欠佳。

为了解决以上问题，搜狗在传统模型基础上，引入了文档门控制器（Document Gate）来控制最终答案的输出，将文档选择信息引入到最终的结果中去。

此外，搜狗还使用了基于自举法（bootstrapping）的弱监督数据生成，解决传统弱监督数据中存在的噪声较大的问题。

搜狗不仅有理论研究文章发布，也非常重视技术落地化，过去的研究成果已经渗入到搜索产品中，不知不觉中为用户服务。

当我们在使用搜狗网页搜索时，当用户输入的搜索关键字是一个问题时，尤其是在医疗和法律等大众关心的问题，智能问答系统会尝试从搜索结果的网页中寻找答案并以最高优先级呈现给用户。

与行业分享成果

前面我们提到的CoQA挑战，现在已经有29家公司与机构提交了成绩，但是其中只有3家开源了自己算法，分别是微软、艾伦研究所和搜狗。

而SDNet、FlowQA只针对模型本身开源，并包含一些数据预处理工具，搜狗开源的是机器阅读理解一整套完整解决方案。

搜狗不吝分享最新的研究成果对学术界和工业界来说都是一个福音。

如果你是从事NLP研究的高校学生，那么SMRC可以帮助你快速将自己的模型与其他技术结合，这个过程中只需一个接口，大大降低了有志从事NLP学生的使用门槛，也能为研究人员减少重复劳动，加速相关学术研究。

而如果你是一名工业界人员，拿来即用的SMRC能帮助你将搜狗的研究成果整合到自己产品方案中。

可以说，开源SMRC解决了开发者从数据集处理到模型训练等一系列痛点，是一项造福整个机器理解研究领域的大事。而对于普通大众来说，将来可能会看到更多的智能对话系统、解题应用，而背后或许就有搜狗开源技术默默的支持。

最后，附上SMRC的开源地址：
https://github.com/sogou/SMRCToolkit

— 完 —

小程序|全类别AI学习教程

AI社群|与优秀的人交流

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

登录查看更多

知识荟萃

精品入门和进阶教程、论文和代码整理等

查看相关VIP内容、论文、资讯等

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

专知会员服务

42+阅读 · 2020年7月1日

FPGA加速系统开发工具设计:综述与实践

专知会员服务

69+阅读 · 2020年6月24日

基于深度学习的主题模型研究，中文综述，29页pdf，计算机学报

专知会员服务

124+阅读 · 2020年5月20日

面向司法案件的案情知识图谱自动构建

专知会员服务

126+阅读 · 2020年4月17日

TensorFlow开发者峰会2020 Keynote，TF2及其庞大的科研、工业生态圈

专知会员服务

26+阅读 · 2020年3月20日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

【2020新书】企业级机器学习: Spark XGBoost LightGBM, NLP, Keras深度学习, 367页pdf

专知会员服务

115+阅读 · 2020年2月24日

使用深度学习方法解析问题知识图谱存储查询知识点基于医疗垂直领域的对话系统 by Mr.Young GitHub

专知会员服务

44+阅读 · 2020年1月30日

问答与对话-技术与系统之基于深度学习的机器阅读理解【崔一鸣】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第14期

专知会员服务

47+阅读 · 2019年10月23日

斯坦福&谷歌Jeff Dean最新Nature论文：医疗深度学习技术指南（29页综述）

专知会员服务

63+阅读 · 2019年1月7日

OpenNRE 2.0：可一键运行的开源关系抽取工具包

PaperWeekly

22+阅读 · 2019年10月30日

多轮对话阅读理解新突破，追一科技登顶CoQA榜单

高榕资本

7+阅读 · 2019年9月12日

搜狗开源机器阅读理解工具箱

专知

19+阅读 · 2019年5月16日

再破新纪录！微软最新NLP模型3项评分全面超越人类水平！

新智元

8+阅读 · 2019年5月4日

Github项目推荐 | NeuronBlocks：微软发布的模块化深度学习NLP工具集

AI科技评论

3+阅读 · 2019年4月26日

中国AI军团争霸机器阅读理解大赛，搜狗创下全球新纪录

THU数据派

5+阅读 · 2019年1月18日

最强NLP模型BERT喜迎PyTorch版！谷歌官方推荐，也会支持中文

量子位

13+阅读 · 2018年11月7日

BERT 现已开源：最先进的 NLP 预训练技术，支持中文和更多语言

谷歌开发者

16+阅读 · 2018年11月6日

【开源】2018中文机器阅读理解竞赛第四名代码开源

专知

55+阅读 · 2018年8月9日

资源 | Facebook开源DrQA的PyTorch实现：基于维基百科的问答系统

机器之心

3+阅读 · 2017年7月29日

A Study of the Tasks and Models in Machine Reading Comprehension

Arxiv

8+阅读 · 2020年1月23日

Deep Universal Graph Embedding Neural Network

Arxiv

6+阅读 · 2019年9月25日

Sogou Machine Reading Comprehension Toolkit

Arxiv

8+阅读 · 2019年3月28日

Multi-granularity hierarchical attention fusion networks for reading comprehension and question answering

Arxiv

4+阅读 · 2018年11月29日

Knowledge Based Machine Reading Comprehension

Arxiv

4+阅读 · 2018年9月12日

Question Answering through Transfer Learning from Large Fine-grained Supervision Data

Arxiv

3+阅读 · 2018年5月31日

Universal Language Model Fine-tuning for Text Classification

Arxiv

3+阅读 · 2018年5月17日

QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension

Arxiv

4+阅读 · 2018年4月23日

XNMT: The eXtensible Neural Machine Translation Toolkit

Arxiv

3+阅读 · 2018年3月1日

DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications

Arxiv

4+阅读 · 2017年11月15日

VIP会员