重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py - 专知

会员服务 ·

0

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

2019 年 8 月 26 日 中国科学院网络数据重点实验室

MatchZoo 是由中科院计算所网络数据科学与技术重点实验室于 2017 年发布的一个深度文本匹配工具开源项目，可应用于文本检索、自动问答、复述问题、对话系统等多种应用任务场景。目前在 GitHub 平台上已获得将近 2600 Star，719 Fork，在深度文本匹配领域具有较大的影响力。

MatchZoo-py 是基于 PyTorch 框架，对 MatchZoo Keras 版本进行二次开发的新开源项目。借助 PyTorch 灵活性高，可扩展性强的特性，MatchZoo-py 在文本处理上具有更简洁的实现。使用 MatchZoo-py 框架，用户可以更加直观地了解深度文本匹配模型的设计、更加便利地比较不同模型的性能差异、更加快捷地开发新型的深度匹配模型。

MatchZoo-py 提供了基准数据集（WiKiQA、QuoraQP、SNLI 等数据集）进行模型开发与评估，实现了当前最流行的深度文本匹配方法（包括 DRMM，DSSM，CDSSM，ESIM，ARC-I，ARC-II，KNRM，ConvKNRM，BiMPM，MatchLSTM ，Bert 等算法），旨在为信息检索、数据挖掘、自然语言处理、机器学习等领域内的研究与从业人员提供便利。

同时，MatchZoo-py 整合了为 NLP 带来里程碑式改变的预训练模型 Bert，并提供了相应的使用指南。

MatchZoo-py v1.0 具有的新 Features 如下：

基于 PyTorch 框架进行开发，灵活性高，可扩展性强
整合预训练模型 Bert，可作为模型基础层使用，并提供使用指南
优化 Embedding 加载模块，支持 Word2vec，GloVe，fastText 等 Embedding
支持不同粒度（Character，N-gram，Word，Phrase 等）的 Embedding 输入
实现了大部分流行的深度匹配模型
支持动态 Padding，提高模型效率
自动检测 Task 中 Loss 和 Metric 的合法性
支持多线程 DataLoader
模型训练中支持自定义 Early stopping，clipping gradient norm，validation interval 以及自动保存最好模型

我们对比了多个模型，不同模型的性能如下所示，图 1 为不同模型在 WikiQA 训练数据集上的损失曲线，图 2 为不同模型在 WikiQA 测试数据集上的 NDCG@5 性能曲线，可以看到， MatchZoo-Py 可以复现 Keras 版本的性能，并且发现 Bert 取得了最好的性能。

图 1 不同模型在训练集上的的 loss 曲线图

图 2 不同模型在测试集上的 NDCG@5 性能曲线图

作为一个开源项目，欢迎大家给我们提供宝贵的建议与意见，同时也欢迎大家申请加入我们的开发队伍。

项目地址（点击“阅读原文”可直接访问）：

https://github.com/NTMC-Community/MatchZoo-py

登录查看更多

16

相关内容

PyTorch

PyTorch

基于多头注意力胶囊网络的文本分类模型

基于多头注意力胶囊网络的文本分类模型

专知会员服务

78+阅读 · 2020年5月24日

哈工大最新综述，基于文档的对话系统，30页pdf跟踪最新领域前沿

哈工大最新综述，基于文档的对话系统，30页pdf跟踪最新领域前沿

专知会员服务

91+阅读 · 2020年5月8日

最新《深度学习行人重识别》综述论文，24页pdf

最新《深度学习行人重识别》综述论文，24页pdf

专知会员服务

81+阅读 · 2020年5月5日

【Amazon】使用预先训练的Transformer模型进行数据增强

【Amazon】使用预先训练的Transformer模型进行数据增强

专知会员服务

58+阅读 · 2020年3月6日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

使用深度学习方法解析问题知识图谱存储查询知识点基于医疗垂直领域的对话系统 by Mr.Young GitHub

专知会员服务

44+阅读 · 2020年1月30日

数据挖掘大拿韩家炜：从非结构化文本到知识立方TextCube：自动化构建和多维探索

数据挖掘大拿韩家炜：从非结构化文本到知识立方TextCube：自动化构建和多维探索

专知会员服务

101+阅读 · 2019年12月28日

【NLP模型的跨语言/跨领域迁移】《Transferring NLP models across languages and domains》

【NLP模型的跨语言/跨领域迁移】《Transferring NLP models across languages and domains》

专知会员服务

43+阅读 · 2019年11月25日

【NLP| 推荐文章】从统一文本到文本探讨迁移学习的局限性（Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer）

【NLP| 推荐文章】从统一文本到文本探讨迁移学习的局限性（Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer）

专知会员服务

20+阅读 · 2019年11月24日

新模型学到头秃？gobbli统一模型库帮你快速上手文本分类，内置BERT、fastText等

新模型学到头秃？gobbli统一模型库帮你快速上手文本分类，内置BERT、fastText等

机器之心

4+阅读 · 2019年9月20日

腾讯AI开源框架Angel 3.0重磅发布：超50万行代码，支持3种算法，打造全栈机器学习平台

腾讯AI开源框架Angel 3.0重磅发布：超50万行代码，支持3种算法，打造全栈机器学习平台

AI100

5+阅读 · 2019年8月24日

最强NLP预训练模型库PyTorch-Transformers正式开源！支持6个预训练框架，27个预训练模型

最强NLP预训练模型库PyTorch-Transformers正式开源！支持6个预训练框架，27个预训练模型

AI前线

12+阅读 · 2019年7月22日

基于PyTorch/TorchText的自然语言处理库

基于PyTorch/TorchText的自然语言处理库

专知

28+阅读 · 2019年4月22日

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

专知

11+阅读 · 2019年1月12日

PyTorch 1.0 正式版发布了！

PyTorch 1.0 正式版发布了！

机器学习算法与Python学习

4+阅读 · 2018年12月8日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

中科院计算所范意兴专访：深度文本匹配工具 MatchZoo 背后的个中细节

中科院计算所范意兴专访：深度文本匹配工具 MatchZoo 背后的个中细节

AI科技评论

4+阅读 · 2017年12月23日

深度文本匹配开源工具（MatchZoo）

深度文本匹配开源工具（MatchZoo）

机器学习研究会

10+阅读 · 2017年12月5日

YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩

YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩

中国科学院网络数据重点实验室

10+阅读 · 2017年6月15日

Transformer based Grapheme-to-Phoneme Conversion

Arxiv

6+阅读 · 2020年4月14日

Language Modeling with Deep Transformers

Arxiv

6+阅读 · 2019年7月11日

Learning a Matching Model with Co-teaching for Multi-turn Response Selection in Retrieval-based Dialogue Systems

Arxiv

6+阅读 · 2019年6月11日

Star-Transformer

Star-Transformer

Arxiv

5+阅读 · 2019年2月28日

Music Transformer

Music Transformer

Arxiv

5+阅读 · 2018年12月12日

Question Answering over Freebase via Attentive RNN with Similarity Matrix based CNN

Arxiv

11+阅读 · 2018年5月27日

QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension

Arxiv

4+阅读 · 2018年4月23日

Cross-Domain Image Matching with Deep Feature Maps

Arxiv

14+阅读 · 2018年4月6日

Stacked Cross Attention for Image-Text Matching

Arxiv

3+阅读 · 2018年3月21日

MatchZoo: A Toolkit for Deep Text Matching

Arxiv

5+阅读 · 2017年7月23日

VIP会员

相关主题

中科院计算技术研究所

文本匹配模型

相关VIP内容

基于多头注意力胶囊网络的文本分类模型

基于多头注意力胶囊网络的文本分类模型

专知会员服务

78+阅读 · 2020年5月24日

哈工大最新综述，基于文档的对话系统，30页pdf跟踪最新领域前沿

哈工大最新综述，基于文档的对话系统，30页pdf跟踪最新领域前沿

专知会员服务

91+阅读 · 2020年5月8日

最新《深度学习行人重识别》综述论文，24页pdf

最新《深度学习行人重识别》综述论文，24页pdf

专知会员服务

81+阅读 · 2020年5月5日

【Amazon】使用预先训练的Transformer模型进行数据增强

【Amazon】使用预先训练的Transformer模型进行数据增强

专知会员服务

58+阅读 · 2020年3月6日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

使用深度学习方法解析问题知识图谱存储查询知识点基于医疗垂直领域的对话系统 by Mr.Young GitHub

专知会员服务

44+阅读 · 2020年1月30日

数据挖掘大拿韩家炜：从非结构化文本到知识立方TextCube：自动化构建和多维探索

数据挖掘大拿韩家炜：从非结构化文本到知识立方TextCube：自动化构建和多维探索

专知会员服务

101+阅读 · 2019年12月28日

【NLP模型的跨语言/跨领域迁移】《Transferring NLP models across languages and domains》

【NLP模型的跨语言/跨领域迁移】《Transferring NLP models across languages and domains》

专知会员服务

43+阅读 · 2019年11月25日

【NLP| 推荐文章】从统一文本到文本探讨迁移学习的局限性（Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer）

【NLP| 推荐文章】从统一文本到文本探讨迁移学习的局限性（Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer）

专知会员服务

20+阅读 · 2019年11月24日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】多目标奖励与偏好优化：理论与算法

《无形的防御者？将定向能武器集成到反无人机框架的机遇与挑战》报告

自主化海军：海上无人系统与未来海战

迈向智能体系统规模化的科学

相关资讯

新模型学到头秃？gobbli统一模型库帮你快速上手文本分类，内置BERT、fastText等

新模型学到头秃？gobbli统一模型库帮你快速上手文本分类，内置BERT、fastText等

机器之心

4+阅读 · 2019年9月20日

腾讯AI开源框架Angel 3.0重磅发布：超50万行代码，支持3种算法，打造全栈机器学习平台

腾讯AI开源框架Angel 3.0重磅发布：超50万行代码，支持3种算法，打造全栈机器学习平台

AI100

5+阅读 · 2019年8月24日

最强NLP预训练模型库PyTorch-Transformers正式开源！支持6个预训练框架，27个预训练模型

最强NLP预训练模型库PyTorch-Transformers正式开源！支持6个预训练框架，27个预训练模型

AI前线

12+阅读 · 2019年7月22日

基于PyTorch/TorchText的自然语言处理库

基于PyTorch/TorchText的自然语言处理库

专知

28+阅读 · 2019年4月22日

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

专知

11+阅读 · 2019年1月12日

PyTorch 1.0 正式版发布了！

PyTorch 1.0 正式版发布了！

机器学习算法与Python学习

4+阅读 · 2018年12月8日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

中科院计算所范意兴专访：深度文本匹配工具 MatchZoo 背后的个中细节

中科院计算所范意兴专访：深度文本匹配工具 MatchZoo 背后的个中细节

AI科技评论

4+阅读 · 2017年12月23日

深度文本匹配开源工具（MatchZoo）

深度文本匹配开源工具（MatchZoo）

机器学习研究会

10+阅读 · 2017年12月5日

YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩

YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩

中国科学院网络数据重点实验室

10+阅读 · 2017年6月15日

相关论文

Transformer based Grapheme-to-Phoneme Conversion

Arxiv

6+阅读 · 2020年4月14日

Language Modeling with Deep Transformers

Arxiv

6+阅读 · 2019年7月11日

Learning a Matching Model with Co-teaching for Multi-turn Response Selection in Retrieval-based Dialogue Systems

Arxiv

6+阅读 · 2019年6月11日

Star-Transformer

Star-Transformer

Arxiv

5+阅读 · 2019年2月28日

Music Transformer

Music Transformer

Arxiv

5+阅读 · 2018年12月12日

Question Answering over Freebase via Attentive RNN with Similarity Matrix based CNN

Arxiv

11+阅读 · 2018年5月27日

QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension

Arxiv

4+阅读 · 2018年4月23日

Cross-Domain Image Matching with Deep Feature Maps

Arxiv

14+阅读 · 2018年4月6日

Stacked Cross Attention for Image-Text Matching

Arxiv

3+阅读 · 2018年3月21日

MatchZoo: A Toolkit for Deep Text Matching

Arxiv

5+阅读 · 2017年7月23日

大家都在搜

大型语言模型

蓝牙安全攻防

朱克爱德华兹家族

冷启动，0预算，如何借助分销裂变引爆私域用户增长？

微信扫码咨询专知VIP会员