资源 | DeepPavlov：一个训练对话系统和聊天机器人的开源库

2018 年 2 月 27 日 机器之心

选自GitHub

机器之心编译

参与：思源、刘晓坤

本文介绍了一个构建端到端对话系统和训练聊天机器人的开源项目 DeepPavlov，该开源库的构建基于 TensorFlow 和 Keras，并旨在推动 NLP 和对话系统的研究，提升复杂对话系统的实现和评估效果。机器之心简要介绍了该项目和基本技术，希望实现对话机器人的读者可进一步阅读原项目。

项目地址：https://github.com/deepmipt/DeepPavlov

这是一个开源的对话 AI 库，建立在 TensorFlow 和 Keras 上，其用途是：

NLP 和对话系统研究；
复杂对话系统的实现和评估。

我们的目标是为研究者提供：

用于实现和测试他们自己的对话模型并随后将模型共享的框架；
一系列预定义的 NLP 模型/对话系统组件（机器学习/深度学习/规则系统）和流程模板；
对话模型的基准测试环境和对相关数据的系统性评估。

并为 AI 应用开发者提供：

建立对话软件的框架；
将应用与对应基础建设（通讯、技术支持软件等）相集成的工具。

项目特征

格位填充组件（Slot filling component）：基于命名实体识别（NER）神经网络和模糊 Levenshtein 搜索，以从文本中提取归一化的格位值（slot values）。NER 网络组件根据论文《Application of a Hybrid Bi-LSTM-CRF model to the task of Russian Named Entity Recognition》重新生成了架构，由《Neural Architectures for Named Entity Recognition》中的 LSTM+CRF 架构所启发。

专用分类组件：基于论文《Convolutional Neural Networks for Sentence Classification》中的 shallow-and-wide CNN 架构。该模型允许语句的多标签分类。

自动拼写和校正组件：基于论文《An Improved Error Model for Noisy Channel Spelling Correction》，并使用基于统计学的误差模型、一个静态词典和一个 ARPA 语言模型以校正拼写错误。

目标导向的对话机器人：基于论文《Hybrid Code Networks: practical and efficient end-to-end dialog control with supervised and reinforcement learning》中的 Hybrid Code Networks 架构。它允许在目标导向任务的对话中预测回应。该模型是相当可定制的：嵌入、格位填充器和专用分类器可以根据需要使用或者不用。

为俄语预训练的嵌入：在联合俄语 Wikipedia 和 Lenta.ru 语料库词向量上进行预训练得到的词嵌入。

简单示例

用 Telegram 部署目标导向的对话机器人和格位填充（slot-filling）的视频 demo：

用 Telegram 接口运行目标导向的对话机器人：

python deep.py interactbot skills/go_bot/config.json -t <TELEGRAM_TOKEN>

用控制台接口运行目标导向的对话机器人：

python deep.py interact skills/go_bot/config.json

用 Telegram 接口运行格位填充模型：

python deep.py interactbot models/ner/config.json -t <TELEGRAM_TOKEN>

用控制台接口运行格位填充模型：

python deep.py interact models/ner/config.json

概念简述

原则

这个库遵循以下原则设计：

将端到端学习架构作为长期目标；
目前采用混合的机器学习/深度学习/规则系统的架构；
模块化的对话系统架构；
基于组件的软件工程，最大化复用性；
易于扩展和基准测试；
为单个 NLP 任务提供多个组件，通过数据驱动选择合适的组件。

目标架构

我们的库的目标架构：

DeepPavlov 建立在机器学习库（TensorFlow、Keras）之上。可以用其它外部的库建立基础组件。

关键概念

Agent（智能体）：对话智能体用自然语言（文本）和用户进行交流。
Skill（技能）：用于满足用户需求的交互单元。通常可以通过展示信息或完成任务（例如，通过 FAQ 回答问题等）；然而，根据经验，某些任务的成功会被定义成连续的进展（例如，闲聊）。
Components（组件）：基础功能模块：

Rule-based Components（基于规则的组件）—无法训练；
Machine Learning Components（机器学习组件）—仅能独立训练；
Deep Learning Components（深度学习组件）—可以独立地训练，也能以端对端的方式结合到工作链中。

Switcher（转换器）：智能体排序和选择向用户展示的最终应答的机制。
Components Chainer（组件链接器）：从各种组件（Rule-based/ml/dl）构建智能体/组件管道的工具，允许以整体的形式训练和推理管道。

技术概览

项目模块

配置

NLP 的流程配置为 JSON 文件，它包含四个元素：

{
  "dataset_reader": {
  },
  "dataset": {
  },
  "vocabs": {
  },
  "model": {
  }
}

配置文件中每一个类都有一个 name 参数，它是注册的代码名。通过重复它的__init__() 方法参数，我们可以定义其它任何参数。__init__() 参数的默认值在类的实例初始化中被配置值覆盖。

数据集读取器

DatasetReader 类能读取数据并返回特定的格式。一个具体的 DatasetReader 类应该从基本的 deeppavlov.data.dataset_reader.DatasetReader 类继承，并注册为代码名：

@register('dstc2_datasetreader')
class DSTC2DatasetReader(DatasetReader):

数据集

Dataset 类构成我们所需的数据集（「训练」、「验证」和「测试」）和批量数据。一个具体的 Dataset 类应该注册并可以从 deeppavlov.data.dataset_reader.Dataset 类继承。

deeppavlov.data.dataset_reader.Dataset 类不是抽象类，它同样可以像 Dataset 类那样使用。

词汇

Vocab 是一个可训练的类，它能构建和序列化词汇。Vocab 能索引任何数据，它能索引 X（特征）和 y（回答）类型的数据。一个具体的 Vocab 类应该注册并可以从 deeppavlov.data.vocab.DefaultVocabulary 类继承。

deeppavlov.data.vocab.DefaultVocabulary 并不是一个抽象的类，它同样可以像 Vocab 类那样使用。

模型

Model 是制定训练、推断过程和生成特征的主要类。如果模型需要其它模型生成特征，那么就需要将其传递到构造函数和配置文件中。所有的模型可根据需要嵌套，例如 deeppavlov.skills.go_bot.go_bot.GoalOrientedBot 主要由 11 个独立的 Model 类构建，其中有三个为神经网络：

{
  "model": {
    "name": "go_bot",
    "network": {
      "name": "go_bot_rnn"
    },
    "slot_filler": {
      "name": "dstc_slotfilling",
      "ner_network": {
         "name": "ner_tagging_network",
      }
    },
    "intent_classifier": {
      "name": "intent_model",
      "embedder": {
        "name": "fasttext"
      },
      "tokenizer": {
        "name": "nltk_tokenizer"
      }
    },
    "embedder": {
      "name": "fasttext"
    },
    "bow_encoder": {
      "name": "bow"
    },
    "tokenizer": {
      "name": "spacy_tokenizer"
    },
    "tracker": {
      "name": "featurized_tracker"
    }
  }
}

所有模型都应该注册并从 deeppavlov.core.models.inferable.Inferable 或 Inferable 和 deeppavlov.core.models.trainable.Trainable 接口继承。从 Trainable 继承的模型可以继续训练，从 Inferable 接口继承的模型只能执行推断。通常，Inferable 模型是基于规则的模型或从第三方库导入的预训练模型。

训练

所有从 deeppavlov.core.models.trainable.Trainable 接口继承的模型都可训练，训练过程在 train() 方法中有详细描述。

@register("my_model")
class MyModel(Inferable, Trainable):

   def train(*args, **kwargs):
       """
       Implement training here.
       """

所有在实验中可以改变的训练参数（如 Epoch 数、批量大小、容忍度、学习率个优化器等）都应该传递到模型的构造函数__init__()，且__init__() 中的默认参数值将会被 JSON 配置值覆盖。要改变这些值，我们不需重写代码，只需要修改配置文件就行。

训练过程由 train_now 属性控制。如果 train_now 为真，表示模型正在执行训练。在使用 Vocab 时，这个参数十分有用，因为可以在单个模型中训练一些词汇，而另一些词汇只会在流程中的其它模型上执行推断。JASON 配置文件中的训练参数以设置成：

{
  "model": {
    "name": "my_model",
    "train_now": true,
    "optimizer": "Adam",
    "learning_rate": 0.2,
    "num_epochs": 1000
  }
}

推断

所有从 deeppavlov.core.models.inferable.Inferable 接口继承的模型都能执行推断。infer() 方法应返回模型可执行的操作，例如分词器应该返回符号、命名实体识别器应该返回识别的实体等。此外，infer() 中应该定义特定格式的返回数据。

推断由 deeppavlov.core.commands.train.infer_model_from_config（）函数触发，并不需要单独的 JSON 进行推断，且 train_now 参数在推断中也会被忽略。

本文为机器之心编译，转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心（全职记者/实习生）：hr@jiqizhixin.com

投稿或寻求报道：editor@jiqizhixin.com

广告&商务合作：bd@jiqizhixin.com

登录查看更多

相关内容

对话系统

关注 6

【北京大学】动态异构图神经网络建模情感，Jointly Modeling Aspect and Sentiment with Dynamic Heterogeneous Graph Neural Networks

专知会员服务

55+阅读 · 2020年4月15日

【清华大学】面向任务的对话系统的最新进展和挑战，Task-oriented Dialog System

专知会员服务

84+阅读 · 2020年3月24日

【综述】用于语音自动处理的深度神经网络综述:从大型语料库到有限数据的调查

专知会员服务

24+阅读 · 2020年3月9日

【2020新书】企业级机器学习: Spark XGBoost LightGBM, NLP, Keras深度学习, 367页pdf

专知会员服务

115+阅读 · 2020年2月24日

使用深度学习方法解析问题知识图谱存储查询知识点基于医疗垂直领域的对话系统 by Mr.Young GitHub

专知会员服务

44+阅读 · 2020年1月30日

Google AI发布Meena-构建一个无所不聊的含26亿参数模型的聊天机器人

专知会员服务

54+阅读 · 2020年1月29日

一网打尽！100+深度学习模型TensorFlow与Pytorch代码实现集合

专知会员服务

142+阅读 · 2020年1月3日

【电子书】自然语言处理（Natural Language Processing）587页PDF免费下载

专知会员服务

67+阅读 · 2019年10月30日

【下载】Python自然语言处理实战书籍和代码《Natural Language Processing in Action》

专知会员服务

80+阅读 · 2019年10月27日

[综述]基于深度学习的开放领域对话系统研究综述

专知会员服务

80+阅读 · 2019年10月12日

新模型学到头秃？gobbli统一模型库帮你快速上手文本分类，内置BERT、fastText等

机器之心

4+阅读 · 2019年9月20日

【Github】GPT2-Chinese：中文的GPT2训练代码

AINLP

52+阅读 · 2019年8月23日

【Github】All4NLP：自然语言处理相关资源整理

AINLP

23+阅读 · 2019年8月9日

收藏 | Tensorflow实现的深度NLP模型集锦（附资源）

数据派THU

6+阅读 · 2019年5月3日

基于PyTorch/TorchText的自然语言处理库

专知

28+阅读 · 2019年4月22日

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

量子位

26+阅读 · 2019年2月14日

微软研究院开源项目TextWorld：可用于强化学习训练的文本游戏

专知

5+阅读 · 2018年8月11日

一文读懂智能对话系统

数据派THU

16+阅读 · 2018年1月27日

最新Apache Spark平台的NLP库,助你轻松搞定自然语言处理任务

专知

11+阅读 · 2017年11月29日

用Rasa NLU构建自己的中文NLU系统

待字闺中

18+阅读 · 2017年9月18日

Text Level Graph Neural Network for Text Classification

Arxiv

8+阅读 · 2019年10月6日

Fine-tuning BERT for Joint Entity and Relation Extraction in Chinese Medical Text

Arxiv

6+阅读 · 2019年8月21日

Shallow Domain Adaptive Embeddings for Sentiment Analysis

Arxiv

5+阅读 · 2019年8月16日

Multi-task learning to improve natural language understanding

Arxiv

4+阅读 · 2018年12月17日

Jointly Learning to Label Sentences and Tokens

Arxiv

3+阅读 · 2018年11月14日

Character-Level Feature Extraction with Densely Connected Networks

Arxiv

5+阅读 · 2018年7月26日

Multilingual Sentiment Analysis: An RNN-Based Framework for Limited Data

Arxiv

12+阅读 · 2018年6月8日

Universal Language Model Fine-tuning for Text Classification

Arxiv

3+阅读 · 2018年5月17日

Dialog-based Interactive Image Retrieval

Arxiv

5+阅读 · 2018年5月1日

Fine-tuned Language Models for Text Classification

Arxiv

5+阅读 · 2018年1月18日

VIP会员