【Hugging Face硬核书】Transformer自然语言处理(Hugging Face):构建语言应用

2022 年 4 月 7 日 专知



Hugging Face 是一家总部位于纽约的聊天机器人初创服务商,专注于NLP技术,拥有大型的开源社区。尤其是在github上开源的自然语言处理,预训练模型库 Transformers,已被下载超过一百万次,github上超过24000个star。Transformers 提供了NLP领域大量state-of-art的预训练语言模型结构的模型和调用框架。


https://www.oreilly.com/library/view/natural-language-processing/9781098103231/


自2017年推出以来,Transformer已迅速成为在各种自然语言处理任务上实现最先进结果的主导架构。如果你是一名数据科学家或程序员,这本实用的书向你展示了如何使用基于python的深度学习库hugs Face transformer来训练和扩展这些大型模型。


Transformers 已经被用来编写真实的新闻故事,改进谷歌搜索查询,甚至创造出讲笑话的聊天机器人。在本指南中,作者Lewis Tunstall、Leandro von Werra和Thomas Wolf(拥抱Transformers 的创始人之一)使用亲身实践的方法来教你Transformers如何工作,以及如何将它们集成到应用程序中。你会很快学到他们能帮你解决的各种任务。


为核心NLP任务构建、调试和优化Transformers模型,如文本分类、命名实体识别和回答问题

  • 学习如何使用Transformers进行跨语言迁移学习

  • 在真实世界中标签数据稀缺的场景中应用Transformers 

  • 利用蒸馏、剪枝和量化等技术,使Transformers模型有效地用于部署

  • 从零开始训练Transformers ,学习如何扩展到多个GPU和分布式环境


本书的目标是让您能够构建自己的语言应用程序。为了达到这个目的,它关注于实际的用例,并且只在必要的时候深入研究理论。这本书的风格是动手操作,我们强烈建议您亲自运行代码示例来进行试验。本书涵盖了NLP中transformers的所有主要应用,每一章(除了少数例外)专门针对一个任务,结合一个实际的用例和数据集。每一章还介绍了一些额外的概念。以下是我们将涉及的任务和主题的一个高级概述:


  • 第一章,你好Transformers,介绍了Transformers,并把它们放到了背景中。它还介绍了“Hugging Face”生态系统。


  • 第二章文本分类,重点介绍了情感分析(一个常见的文本分类问题),并介绍了Trainer API。


  • 第三章,Transformer剖析,更深入地介绍了Transformer架构,为接下来的章节做准备。


  • 第四章,多语言命名实体识别,重点关注在多语言文本中识别实体的任务(一个令牌分类问题)。


  • 第五章,文本生成,探讨了Transformers模型生成文本的能力,并介绍了解码策略和度量。


  • 第六章,摘要,深入研究了文本摘要的复杂序列到序列任务,并探讨了该任务使用的度量。


  • 第七章“问答”,重点介绍了基于综述的问答系统的构建,并介绍了利用Haystack进行检索的方法。


  • 第八章《Transformers在生产中高效运行》,重点介绍了模型性能。我们将着眼于意图检测的任务(序列分类问题的一种类型),并探索知识蒸馏、量化和剪枝等技术。


  • 第九章,处理很少或没有标签,着眼于在没有大量标签数据的情况下提高模型性能的方法。我们将构建一个GitHub问题标签和探索技术,如零样本分类和数据增强。


  • 第十章,从头开始训练Transformer,向您展示了如何从头开始构建和训练一个自动完成Python源代码的模型。我们将研究数据集流和大规模培训,并构建我们自己的标记器。


  • 第十一章,未来方向,探讨了Transformers面临的挑战和一些令人兴奋的新方向的研究,在这一领域将进入。




专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“TNLP” 就可以获取【Hugging Face硬核书】Transformer自然语言处理》专知下载链接


专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取70000+AI主题干货知识资料!


欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取70000+AI主题知识资源
登录查看更多
34

相关内容

【Manning新书】自然语言处理实战:深度学习应用,337页pdf,
【Manning新书】TensorFlow机器学习,454页pdf
专知会员服务
103+阅读 · 2021年11月14日
专知会员服务
81+阅读 · 2021年7月29日
【Manning新书】TensorFlow机器学习,第二版
专知
4+阅读 · 2021年11月14日
【赠书】TensorFlow自然语言处理
AINLP
17+阅读 · 2019年7月14日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月16日
ResT V2: Simpler, Faster and Stronger
Arxiv
0+阅读 · 2022年4月15日
Arxiv
39+阅读 · 2021年11月11日
Arxiv
103+阅读 · 2021年6月8日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
27+阅读 · 2017年12月6日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
相关论文
Arxiv
0+阅读 · 2022年4月16日
ResT V2: Simpler, Faster and Stronger
Arxiv
0+阅读 · 2022年4月15日
Arxiv
39+阅读 · 2021年11月11日
Arxiv
103+阅读 · 2021年6月8日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
27+阅读 · 2017年12月6日
Top
微信扫码咨询专知VIP会员