提供基于transformer的pipeline、准确率达SOTA,spaCy 3.0正式版发布

2021 年 2 月 2 日 机器之心

机器之心报道

作者:小舟、杜伟

spaCy 3.0 正式版来了。


spaCy 是具有工业级强度的 Python NLP 工具包,被称为最快的工业级自然语言处理工具。它支持多种自然语言处理的基本功能,主要功能包括分词、词性标注、词干化、命名实体识别、名词短语提取等。

近日,spaCy v3.0 正式发布,这是一次重大更新。


spcCy 3.0 更新文档地址:https://github.com/explosion/spaCy/releases/tag/v3.0.0

spaCy v3.0 有以下特点:

  • 具有新的基于 transformer 的 pipeline,这使得 spaCy 的准确率达到了当前的 SOTA 水平;

  • 提供了新的 workflow 系统,帮助用户将原型变为产品;

  • pipeline 配置更加简单,训练 pipeline 也更加轻松;

  • 与 NLP 生态系统的其他部分有许多新的和改进的集成。


spaCy v3.0 旨在优化用户的应用体验。用户可以使用强大的新配置系统来描述所有的设置,从而在 PyTorch 或 TensorFlow 等框架中编写支持 spaCy 组件的模型。新的 workflow 系统更加适用于步骤复杂的现代 NLP 流程。

快速安装启动

为了实现最流畅的更新过程,项目开发者建议用户在一个新的虚拟环境中启动:

pip install -U spacy

在具体操作上,用户可以选择自己的操作系统、包管理器、硬件、配置、训练 pipeline,以及选择 pipeline 时可以选择侧重效率性或者准确性。


新功能与改进之处

本次更新的 spaCy v3.0 增添了一些新功能,也进行了一系列改进,具体如下:

  • 基于 Transformer 的 pipeline,支持多任务学习;

  • 针对 18 + 种语言再训练的模型集合以及 58 个训练的 pipeline(包括 5 个基于 transformer 的pipeline);

  • 针对所有支持语言再训练的 pipeline,以及用于马其顿语和俄语的新的核心 pipeline

  • 新的训练工作流和配置系统;

  • 使用 PyTorch、TensorFlow 和 MXNet 等任何机器学习框架实现自定义模型;

  • 管理从预处理到模型部署等端到端多步骤工作流的 spaCy 项目;

  • 集成数据版本控制(Data Version Control, DVC)、Streamlit、Weights & Biases、Ray 等;

  • 利用 Ray 的并行训练和分布式计算;

  • 新的内置pipeline组件:SentenceRecognizer、Morphologizer、Lemmatizer、AttributeRuler 和 Transformer;

  • 针对自定义组件的全新改进版 pipeline 组件 API 和装饰器;

  • 从用户训练配置的其他 pipeline 中获取经过训练的组件;

  • 为所有经过训练的 pipeline 包提供预建和更高效的二进制 wheel;

  • 使用 Semgrex 运算符在依赖解析(dependency parse)中提供用于匹配模式的 DependencyMatcher;

  • 在 Matcher 中支持贪婪模式(greedy pattern);

  • 新的数据结构 SpanGroup,可以通过 Doc.spans 有效地存储可能重叠的 span 的集合;

  • 用于自定义注册函数的类型提示和基于类型的数据验证;

  • 各种新方法、属性和命令。


58 个训练的 pipeline

用户在下载训练的 pipeline 时,可以使用 spacy download 命令。58 个训练的 pipeline 如下图所示:

部分截图。

用户在自己的数据上训练 pipeline 时可参考训练文档,地址:https://spacy.io/usage/training

已删除或重命名的 API


下图中弃用的方法、属性和参数已经在 v3.0 中删除,其中的大多数已经弃用了一段时间,并且很多以往会引发错误。如果用户使用的是最新版本的 spaCy v2.x,则代码对它们的依赖性不大。


参考链接:
https://explosion.ai/blog/spacy-v3
https://zhuanlan.zhihu.com/p/51425975

百万级文献分析,十万字深入解读
2020-2021 全球AI技术发展趋势报告

报告内容涵盖人工智能顶会趋势分析、整体技术趋势发展结论、六大细分领域(自然语言处理、计算机视觉、机器人与自动化技术、机器学习、智能基础设施、数据智能技术、前沿智能技术)技术发展趋势数据与问卷结论详解,最后附有六大技术领域5年突破事件、Synced Indicator 完整数据。

识别下方二维码,立即购买报告。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

登录查看更多
1

相关内容

【2021新书】Python深度学习,316页pdf
专知会员服务
250+阅读 · 2021年5月21日
【干货书】Python参考手册,210页pdf
专知会员服务
63+阅读 · 2021年4月30日
TensorFlow Lite指南实战《TensorFlow Lite A primer》,附48页PPT
专知会员服务
69+阅读 · 2020年1月17日
重磅发布:基于 PyTorch 的深度文本匹配工具 MatchZoo-py
中国科学院网络数据重点实验室
16+阅读 · 2019年8月26日
官方解读:TensorFlow 2.0 新的功能特性
云头条
3+阅读 · 2019年1月23日
TF Boys必看!一文搞懂TensorFlow 2.0新架构!
引力空间站
18+阅读 · 2019年1月16日
polyglot:Pipeline 多语言NLP工具
AINLP
4+阅读 · 2018年12月11日
PyTorch 1.0 正式版发布了!
机器学习算法与Python学习
4+阅读 · 2018年12月8日
使用PaddleFluid和TensorFlow训练序列标注模型
PaperWeekly
6+阅读 · 2018年7月11日
自然语言处理工具包spaCy介绍
AINLP
18+阅读 · 2016年11月14日
Arxiv
103+阅读 · 2021年6月8日
Arxiv
9+阅读 · 2021年2月8日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
VIP会员
相关资讯
重磅发布:基于 PyTorch 的深度文本匹配工具 MatchZoo-py
中国科学院网络数据重点实验室
16+阅读 · 2019年8月26日
官方解读:TensorFlow 2.0 新的功能特性
云头条
3+阅读 · 2019年1月23日
TF Boys必看!一文搞懂TensorFlow 2.0新架构!
引力空间站
18+阅读 · 2019年1月16日
polyglot:Pipeline 多语言NLP工具
AINLP
4+阅读 · 2018年12月11日
PyTorch 1.0 正式版发布了!
机器学习算法与Python学习
4+阅读 · 2018年12月8日
使用PaddleFluid和TensorFlow训练序列标注模型
PaperWeekly
6+阅读 · 2018年7月11日
自然语言处理工具包spaCy介绍
AINLP
18+阅读 · 2016年11月14日
相关论文
Arxiv
103+阅读 · 2021年6月8日
Arxiv
9+阅读 · 2021年2月8日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Top
微信扫码咨询专知VIP会员