提供基于transformer的pipeline、准确率达SOTA，spaCy 3.0正式版发布 - 专知

会员服务 ·

0

提供基于transformer的pipeline、准确率达SOTA，spaCy 3.0正式版发布

2021 年 2 月 2 日 机器之心

机器之心报道

作者：小舟、杜伟

spaCy 3.0 正式版来了。

spaCy 是具有工业级强度的 Python NLP 工具包，被称为最快的工业级自然语言处理工具。它支持多种自然语言处理的基本功能，主要功能包括分词、词性标注、词干化、命名实体识别、名词短语提取等。

近日，spaCy v3.0 正式发布，这是一次重大更新。

spcCy 3.0 更新文档地址：https://github.com/explosion/spaCy/releases/tag/v3.0.0

spaCy v3.0 有以下特点：

具有新的基于 transformer 的 pipeline，这使得 spaCy 的准确率达到了当前的 SOTA 水平；
提供了新的 workflow 系统，帮助用户将原型变为产品；
pipeline 配置更加简单，训练 pipeline 也更加轻松；
与 NLP 生态系统的其他部分有许多新的和改进的集成。

spaCy v3.0 旨在优化用户的应用体验。用户可以使用强大的新配置系统来描述所有的设置，从而在 PyTorch 或 TensorFlow 等框架中编写支持 spaCy 组件的模型。新的 workflow 系统更加适用于步骤复杂的现代 NLP 流程。

快速安装启动

为了实现最流畅的更新过程，项目开发者建议用户在一个新的虚拟环境中启动：

pip install -U spacy

在具体操作上，用户可以选择自己的操作系统、包管理器、硬件、配置、训练 pipeline，以及选择 pipeline 时可以选择侧重效率性或者准确性。

新功能与改进之处

本次更新的 spaCy v3.0 增添了一些新功能，也进行了一系列改进，具体如下：

基于 Transformer 的 pipeline，支持多任务学习；
针对 18 + 种语言再训练的模型集合以及 58 个训练的 pipeline（包括 5 个基于 transformer 的pipeline）；
针对所有支持语言再训练的 pipeline，以及用于马其顿语和俄语的新的核心 pipeline；
新的训练工作流和配置系统；
使用 PyTorch、TensorFlow 和 MXNet 等任何机器学习框架实现自定义模型；
管理从预处理到模型部署等端到端多步骤工作流的 spaCy 项目；
集成数据版本控制（Data Version Control, DVC）、Streamlit、Weights & Biases、Ray 等；
利用 Ray 的并行训练和分布式计算；
新的内置pipeline组件：SentenceRecognizer、Morphologizer、Lemmatizer、AttributeRuler 和 Transformer；
针对自定义组件的全新改进版 pipeline 组件 API 和装饰器；
从用户训练配置的其他 pipeline 中获取经过训练的组件；
为所有经过训练的 pipeline 包提供预建和更高效的二进制 wheel；
使用 Semgrex 运算符在依赖解析（dependency parse）中提供用于匹配模式的 DependencyMatcher；
在 Matcher 中支持贪婪模式（greedy pattern）；
新的数据结构 SpanGroup，可以通过 Doc.spans 有效地存储可能重叠的 span 的集合；
用于自定义注册函数的类型提示和基于类型的数据验证；
各种新方法、属性和命令。

58 个训练的 pipeline

用户在下载训练的 pipeline 时，可以使用 spacy download 命令。58 个训练的 pipeline 如下图所示：

部分截图。

用户在自己的数据上训练 pipeline 时可参考训练文档，地址：https://spacy.io/usage/training

已删除或重命名的 API

下图中弃用的方法、属性和参数已经在 v3.0 中删除，其中的大多数已经弃用了一段时间，并且很多以往会引发错误。如果用户使用的是最新版本的 spaCy v2.x，则代码对它们的依赖性不大。

参考链接：

https://explosion.ai/blog/spacy-v3

https://zhuanlan.zhihu.com/p/51425975

百万级文献分析，十万字深入解读

2020-2021 全球AI技术发展趋势报告

报告内容涵盖人工智能顶会趋势分析、整体技术趋势发展结论、六大细分领域（自然语言处理、计算机视觉、机器人与自动化技术、机器学习、智能基础设施、数据智能技术、前沿智能技术）技术发展趋势数据与问卷结论详解，最后附有六大技术领域5年突破事件、Synced Indicator 完整数据。

识别下方二维码，立即购买报告。

© THE END

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

登录查看更多

1

相关内容

spaCy

【2021新书】Python深度学习，316页pdf

【2021新书】Python深度学习，316页pdf

专知会员服务

255+阅读 · 2021年5月21日

【干货书】Python参考手册，210页pdf

【干货书】Python参考手册，210页pdf

专知会员服务

64+阅读 · 2021年4月30日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

专知会员服务

108+阅读 · 2020年5月1日

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

专知会员服务

36+阅读 · 2020年3月27日

TensorFlow开发者峰会2020 Keynote，TF2及其庞大的科研、工业生态圈

TensorFlow开发者峰会2020 Keynote，TF2及其庞大的科研、工业生态圈

专知会员服务

26+阅读 · 2020年3月20日

【2020新书】使用Google Dialogflow构建虚拟助手对话机器人，201页pdf

【2020新书】使用Google Dialogflow构建虚拟助手对话机器人，201页pdf

专知会员服务

72+阅读 · 2020年3月19日

【2020新书】JavaScript神经网络在TensorFlow.js中的深度学习，561页pdf

【2020新书】JavaScript神经网络在TensorFlow.js中的深度学习，561页pdf

专知会员服务

104+阅读 · 2020年2月4日

TensorFlow Lite指南实战《TensorFlow Lite A primer》，附48页PPT

TensorFlow Lite指南实战《TensorFlow Lite A primer》，附48页PPT

专知会员服务

70+阅读 · 2020年1月17日

【新书】学习TensorFlow2.0，177页pdf，使用Python实现机器学习和深度学习模型

【新书】学习TensorFlow2.0，177页pdf，使用Python实现机器学习和深度学习模型

专知会员服务

224+阅读 · 2019年12月28日

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

中国科学院网络数据重点实验室

16+阅读 · 2019年8月26日

中文分词工具在线PK新增：FoolNLTK、LTP、StanfordCoreNLP

中文分词工具在线PK新增：FoolNLTK、LTP、StanfordCoreNLP

AINLP

13+阅读 · 2019年5月5日

官方解读：TensorFlow 2.0 新的功能特性

官方解读：TensorFlow 2.0 新的功能特性

云头条

3+阅读 · 2019年1月23日

TF Boys必看！一文搞懂TensorFlow 2.0新架构！

TF Boys必看！一文搞懂TensorFlow 2.0新架构！

引力空间站

19+阅读 · 2019年1月16日

polyglot：Pipeline 多语言NLP工具

polyglot：Pipeline 多语言NLP工具

AINLP

4+阅读 · 2018年12月11日

PyTorch 1.0 正式版发布了！

PyTorch 1.0 正式版发布了！

机器学习算法与Python学习

4+阅读 · 2018年12月8日

使用PaddleFluid和TensorFlow训练序列标注模型

使用PaddleFluid和TensorFlow训练序列标注模型

PaperWeekly

6+阅读 · 2018年7月11日

资源 | 小米开源移动端深度学习框架MACE：可转换TensorFlow模型

资源 | 小米开源移动端深度学习框架MACE：可转换TensorFlow模型

机器之心

3+阅读 · 2018年6月29日

技术动态 | 基于深度学习的中文自然语言处理工具 FudanDNN-NLP3.0

技术动态 | 基于深度学习的中文自然语言处理工具 FudanDNN-NLP3.0

开放知识图谱

9+阅读 · 2017年7月24日

自然语言处理工具包spaCy介绍

自然语言处理工具包spaCy介绍

AINLP

18+阅读 · 2016年11月14日

IITP@COLIEE 2019: Legal Information Retrieval using BM25 and BERT

Arxiv

1+阅读 · 2021年6月24日

Triggerflow: Trigger-based Orchestration of Serverless Workflows

Arxiv

0+阅读 · 2021年6月22日

A Survey of Transformers

Arxiv

103+阅读 · 2021年6月8日

Using Prior Knowledge to Guide BERT's Attention in Semantic Textual Matching Tasks

Arxiv

10+阅读 · 2021年2月22日

Colorization Transformer

Arxiv

9+阅读 · 2021年2月8日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

On Layer Normalization in the Transformer Architecture

Arxiv

4+阅读 · 2020年2月12日

Do NLP Models Know Numbers? Probing Numeracy in Embeddings

Arxiv

5+阅读 · 2019年9月17日

Universal Transformers

Universal Transformers

Arxiv

5+阅读 · 2019年3月5日

The Evolved Transformer

The Evolved Transformer

Arxiv

5+阅读 · 2019年1月30日

VIP会员

相关主题

自然语言处理

相关VIP内容

【2021新书】Python深度学习，316页pdf

【2021新书】Python深度学习，316页pdf

专知会员服务

255+阅读 · 2021年5月21日

【干货书】Python参考手册，210页pdf

【干货书】Python参考手册，210页pdf

专知会员服务

64+阅读 · 2021年4月30日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

专知会员服务

108+阅读 · 2020年5月1日

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

专知会员服务

36+阅读 · 2020年3月27日

TensorFlow开发者峰会2020 Keynote，TF2及其庞大的科研、工业生态圈

TensorFlow开发者峰会2020 Keynote，TF2及其庞大的科研、工业生态圈

专知会员服务

26+阅读 · 2020年3月20日

【2020新书】使用Google Dialogflow构建虚拟助手对话机器人，201页pdf

【2020新书】使用Google Dialogflow构建虚拟助手对话机器人，201页pdf

专知会员服务

72+阅读 · 2020年3月19日

【2020新书】JavaScript神经网络在TensorFlow.js中的深度学习，561页pdf

【2020新书】JavaScript神经网络在TensorFlow.js中的深度学习，561页pdf

专知会员服务

104+阅读 · 2020年2月4日

TensorFlow Lite指南实战《TensorFlow Lite A primer》，附48页PPT

TensorFlow Lite指南实战《TensorFlow Lite A primer》，附48页PPT

专知会员服务

70+阅读 · 2020年1月17日

【新书】学习TensorFlow2.0，177页pdf，使用Python实现机器学习和深度学习模型

【新书】学习TensorFlow2.0，177页pdf，使用Python实现机器学习和深度学习模型

专知会员服务

224+阅读 · 2019年12月28日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】多目标奖励与偏好优化：理论与算法

《无形的防御者？将定向能武器集成到反无人机框架的机遇与挑战》报告

自主化海军：海上无人系统与未来海战

迈向智能体系统规模化的科学

相关资讯

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

中国科学院网络数据重点实验室

16+阅读 · 2019年8月26日

中文分词工具在线PK新增：FoolNLTK、LTP、StanfordCoreNLP

中文分词工具在线PK新增：FoolNLTK、LTP、StanfordCoreNLP

AINLP

13+阅读 · 2019年5月5日

官方解读：TensorFlow 2.0 新的功能特性

官方解读：TensorFlow 2.0 新的功能特性

云头条

3+阅读 · 2019年1月23日

TF Boys必看！一文搞懂TensorFlow 2.0新架构！

TF Boys必看！一文搞懂TensorFlow 2.0新架构！

引力空间站

19+阅读 · 2019年1月16日

polyglot：Pipeline 多语言NLP工具

polyglot：Pipeline 多语言NLP工具

AINLP

4+阅读 · 2018年12月11日

PyTorch 1.0 正式版发布了！

PyTorch 1.0 正式版发布了！

机器学习算法与Python学习

4+阅读 · 2018年12月8日

使用PaddleFluid和TensorFlow训练序列标注模型

使用PaddleFluid和TensorFlow训练序列标注模型

PaperWeekly

6+阅读 · 2018年7月11日

资源 | 小米开源移动端深度学习框架MACE：可转换TensorFlow模型

资源 | 小米开源移动端深度学习框架MACE：可转换TensorFlow模型

机器之心

3+阅读 · 2018年6月29日

技术动态 | 基于深度学习的中文自然语言处理工具 FudanDNN-NLP3.0

技术动态 | 基于深度学习的中文自然语言处理工具 FudanDNN-NLP3.0

开放知识图谱

9+阅读 · 2017年7月24日

自然语言处理工具包spaCy介绍

自然语言处理工具包spaCy介绍

AINLP

18+阅读 · 2016年11月14日

相关论文

IITP@COLIEE 2019: Legal Information Retrieval using BM25 and BERT

Arxiv

1+阅读 · 2021年6月24日

Triggerflow: Trigger-based Orchestration of Serverless Workflows

Arxiv

0+阅读 · 2021年6月22日

A Survey of Transformers

Arxiv

103+阅读 · 2021年6月8日

Using Prior Knowledge to Guide BERT's Attention in Semantic Textual Matching Tasks

Arxiv

10+阅读 · 2021年2月22日

Colorization Transformer

Arxiv

9+阅读 · 2021年2月8日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

On Layer Normalization in the Transformer Architecture

Arxiv

4+阅读 · 2020年2月12日

Do NLP Models Know Numbers? Probing Numeracy in Embeddings

Arxiv

5+阅读 · 2019年9月17日

Universal Transformers

Universal Transformers

Arxiv

5+阅读 · 2019年3月5日

The Evolved Transformer

The Evolved Transformer

Arxiv

5+阅读 · 2019年1月30日

大家都在搜

大型语言模型

朱克爱德华兹家族

蓝牙安全攻防

滴滴司机调度系统实践

微信扫码咨询专知VIP会员