自然语言处理实战教你如何创建实用的NLP应用,而不陷入复杂的语言理论和深度学习的数学。在这本引人入胜的书中,您将探索构建大量强大的NLP应用所需的核心工具和技术,包括聊天机器人、语言检测器和文本分类器。

真实世界的自然语言处理不是典型的自然语言处理教科书。我们专注于构建真实世界的NLP应用。这里真实世界的意义有两个方面:首先,我们关注构建真实世界的NLP应用需要什么。作为读者,您不仅将学习如何训练NLP模型,还将学习如何设计、开发、部署和监控它们。在此过程中,您还将学习现代NLP模型的基本构建模块,以及对构建NLP应用有用的NLP领域的最新开发。其次,与大多数介绍性书籍不同,我们采用自上而下的教学方法。我们不采用自下而上的方法,一页页地展示神经网络理论和数学公式,而是专注于快速构建“正常工作”的NLP应用程序。然后我们深入研究组成NLP应用的各个概念和模型。您还将学习如何使用这些基本构建块构建端到端定制NLP应用,以满足您的需求。

这本书由三个部分组成,共11章。第1部分介绍了NLP的基础知识,其中我们学习了如何使用AllenNLP 快速构建一个NLP应用,以完成情感分析和序列标记等基本任务。

第1章首先介绍了NLP的“什么”和“为什么”——什么是NLP,什么不是NLP,如何使用NLP技术,以及NLP如何与人工智能的其他领域相关联。

第2章演示了如何构建第一个NLP应用程序,一个情感分析器,并介绍了现代NLP模型的基础知识——单词嵌入和递归神经网络(RNN)。

第3章介绍了自然语言处理应用的两个重要组成部分,单词和句子的嵌入,并演示了如何使用和训练它们。

第4章讨论了最简单但最重要的NLP任务之一,句子分类,以及如何在这个任务中使用RNN。

第5章介绍了序列标注任务,如词性标注和命名实体提取。它还涉及到一个相关的技术,语言建模。

第2部分介绍高级NLP主题,包括序列到序列模型、Transformer以及如何利用迁移学习和预先训练过的语言模型来构建强大的NLP应用。

第6章介绍了序列到序列的模型,它将一个序列转换为另一个序列。我们在一个小时内构建了一个简单的机器翻译系统和一个聊天机器人。

第7章讨论了另一种流行的神经网络结构,卷积神经网络(CNN)。

第8章深入介绍了Transformer,它是当今最重要NLP模型之一。我们将演示如何使用Transformer构建改进的机器翻译系统和拼写检查器。

第9章在前一章的基础上,讨论了迁移学习,这是现代NLP中的一种流行的技术,使用预先训练过的语言模型,如BERT。

第3部分将讨论与开发NLP应用程序相关的主题,这些应用程序对真实数据具有健壮性,并部署和服务它们。

第10章详细介绍了开发NLP应用程序时的最佳实践,包括批处理和填充、正则化和超参数优化。

第11章总结了如何部署和服务NLP模型。它还涵盖了如何解释和解释ML模型。

成为VIP会员查看完整内容
0
51

相关内容

自然语言处理(NLP)是语言学,计算机科学,信息工程和人工智能的一个子领域,与计算机和人类(自然)语言之间的相互作用有关,尤其是如何对计算机进行编程以处理和分析大量自然语言数据 。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

随着新代码、新项目和新章节的推出,第二版为读者提供了一个坚实的机器学习基础,并为读者提供了一个完整的学习概念。由NASA喷气推进实验室副首席技术官和首席数据科学家Chris Mattmann编写,所有的例子都伴随着可下载的Jupyter笔记本,以亲身体验用Python编写TensorFlow。新的和修订的内容扩大了核心机器学习算法的覆盖面,以及神经网络的进步,如VGG-Face人脸识别分类器和深度语音分类器。

https://www.manning.com/books/machine-learning-with-tensorflow-second-edition

使用TensorFlow的机器学习,第二版是使用Python和TensorFlow构建机器学习模型的完全指南。您将把核心ML概念应用于现实世界的挑战,如情感分析、文本分类和图像识别。实例演示了用于深度语音处理、面部识别和CIFAR-10自动编码的神经网络技术。

成为VIP会员查看完整内容
0
32

https://www.manning.com/books/graph-powered-machine-learning

机器学习的核心是有效地识别数据中的模式和关系。许多任务,例如查找词汇之间的关联以便您能够做出准确的搜索建议,或者在社交网络中定位具有相似兴趣的个人,很自然地以图Graph的形式表达出来。图驱动机器学习教你如何使用基于图形的算法和数据组织策略来开发高级的机器学习应用程序。

对这项技术

对于任何涉及到大型数据集中的模式匹配的任务,基于图的机器学习都是一个非常强大的工具。应用程序包括安全问题,如识别欺诈或检测网络入侵,应用程序领域,如社交网络或自然语言处理,以及更好的用户体验,通过准确的推荐和智能搜索。通过将数据组织和分析为图形,您的应用程序可以更流畅地使用以图形为中心的算法(如最近邻算法或页面排名算法),在这些算法中,快速识别和利用相关关系非常重要。现代图形数据存储(如Neo4j或Amazon Neptune)是支持图形机器学习的现成工具。

关于这本书

图驱动机器学习向您介绍图技术概念,强调图在机器学习和大数据平台中的作用。您将深入了解各种技术,包括数据源建模、算法设计、链接分析、分类和集群。在掌握核心概念之后,您将探索三个端到端项目,它们将演示体系结构、最佳设计实践、优化方法和常见缺陷。作者亚历山德罗·内格罗在构建基于图形的机器学习系统方面的丰富经验在每一章中都有所体现,你可以从他与真实客户合作的实例和具体场景中学习!

里面有什么

机器学习项目的生命周期 端到端应用程序 大数据平台中的图形 数据源建模 自然语言处理、推荐和相关搜索 优化方法

本书组织

这本书分为四部分,共12章。第一部分介绍了书中的主要主题,从通用机器学习和图的概念开始,然后转移到将这些概念结合起来的好处:

  • 第一章介绍了机器学习和图,涵盖了理解以下章节所必需的基本概念。

  • 第二章列举了将大数据作为机器学习输入的主要挑战,并讨论了如何使用图模型和图数据库来处理这些挑战。介绍了图形数据库的主要特点。

  • 第三章详细描述了图在机器学习工作流中的作用,并描述了一个用于大规模图处理的系统。

第2部分讨论了几个实际用例,在这些用例中,图形支持了机器学习项目的开发,并改进了最终的结果,特别关注以下:

  • 第四章介绍了最常见的推荐技术,并描述了如何为其中之一设计合适的图模型:基于内容的推荐引擎。它详细展示了如何将现有(非图)数据集导入到图模型中,并实现基于内容的工作推荐引擎。

  • 第五章描述了如何为协同过滤方法设计合适的图模型,以及如何实现充分工作的协同过滤推荐引擎。

  • 第六章介绍了基于会话的推荐算法,并描述了一个能够捕获用户会话数据的图模型。它演示了如何将示例数据集导入到设计的模型中,并在其上实现一个真正的推荐引擎。

  • 第七章通过一个考虑用户上下文的推荐引擎的实现来驱动读者。它描述了上下文感知推荐引擎的图模型,并展示了如何将现有数据集导入到图模型中。此外,本章还说明了如何在单个引擎中组合多种推荐方法。

第三部分讨论了欺诈检测:

  • 第八章介绍了欺诈检测,并描述了不同领域的不同类型的欺诈。它还规定了图形在建模数据中的作用,以便更快更容易地揭示欺诈,以及一些用于打击欺诈的简单图形模型中的技术和算法。

  • 第九章转向基于异常检测的更高级的打击欺诈的算法。它展示了如何使用图来存储和分析事务的k-NN,并识别异常事务。

  • 第十章描述了如何使用社会网络分析(SNA)对欺诈者和欺诈风险进行分类。它列出了基于SNA的欺诈分析的不同图表算法,并展示了如何从数据中得出正确的图表。

第四部分介绍了自然语言处理(NLP):

  • 第十一章介绍了基于图的自然语言处理的相关概念。特别地,它描述了一种通过NLP提取非结构化数据的隐藏结构来分解文本并将其存储到图中的简单方法。

  • 第十二章介绍了知识图谱,详细描述了如何从文本中提取实体和关系,并从中创建知识图谱。它列出了知识图谱使用的后处理技术,如语义网络构建和自动主题抽取。

成为VIP会员查看完整内容
0
103

掌握使用PyTorch实现深度学习解决方案的实践方面,使用实践方法理解理论和实践。Facebook的人工智能研究小组开发了一个名为PyTorch的平台,该平台拥有良好的理论基础和实用技能,为你在现实世界中应用深度学习做好了准备。

首先,您将了解PyTorch的深度学习是如何以及为什么成为一种具有开创性的框架,它带有一组工具和技术来解决现实世界中的问题。接下来,这本书将为你打下线性代数、向量微积分、概率和最优化的数学基础。在建立了这个基础之后,您将继续讨论PyTorch的关键组件和功能,包括层、损失函数和优化算法。

您还将了解基于图形处理单元(GPU)的计算,这对训练深度学习模型是必不可少的。介绍了深度学习的前馈网络、卷积神经网络、循环神经网络、长短时记忆网络、自动编码器网络和生成对抗网络等关键网络结构。在许多训练和优化深度学习模型的技巧的支持下,这个版本的Python深度学习解释了使用PyTorch将这些模型带到生产中的最佳实践。

你会: 回顾机器学习的基本原理,如过拟合、欠拟合和正则化。 了解深度学习的基本原理,如前馈网络,卷积神经网络,递归神经网络,自动微分和随机梯度下降。 使用PyTorch深入应用线性代数 探索PyTorch的基本原理及其构建块 使用调优和优化模型

成为VIP会员查看完整内容
0
150

近年来,自然语言处理的研究方法取得了一些突破。这些突破来源于两个新的建模框架以及在计算和词汇资源的可用性的改进。在这个研讨会小册子中,我们将回顾这些框架,以一种可以被视为现代自然语言处理开端的方法论开始:词嵌入。我们将进一步讨论将嵌入式集成到端到端可训练方法中,即卷积神经网络和递归神经网络。这本小册子的第二章将讨论基于注意力的模型的影响,因为它们是最近大多数最先进的架构的基础。因此,我们也将在本章中花很大一部分时间讨论迁移学习方法在现代自然语言处理中的应用。最后一章将会是一个关于自然语言生成的说明性用例,用于评估最先进的模型的训练前资源和基准任务/数据集。

https://compstat-lmu.github.io/seminar_nlp_ss20/

在过去的几十年里,人工智能技术的重要性和应用不断得到关注。在当今时代,它已经与构成人类塑造环境的大部分环境密不可分。因此,商业、研究和开发、信息服务、工程、社会服务和医学等无数部门已经不可逆转地受到人工智能能力的影响。人工智能有三个主要领域组成了这项技术:语音识别、计算机视觉和自然语言处理(见Yeung (2020))。在这本书中,我们将仔细研究自然语言处理(NLP)的现代方法。

这本小册子详细介绍了用于自然语言处理的现代方法,如深度学习和迁移学习。此外,本研究亦会研究可用于训练自然语言处理任务的资源,并会展示一个将自然语言处理应用于自然语言生成的用例。

为了分析和理解人类语言,自然语言处理程序需要从单词和句子中提取信息。由于神经网络和其他机器学习算法需要数字输入来进行训练,因此应用了使用密集向量表示单词的词嵌入。这些通常是通过有多个隐藏层的神经网络学习的,深度神经网络。为了解决容易的任务,可以应用简单的结构神经网络。为了克服这些简单结构的局限性,采用了递归和卷积神经网络。因此,递归神经网络用于学习不需要预先定义最佳固定维数的序列的模型,卷积神经网络用于句子分类。第二章简要介绍了NLP中的深度学习。第三章将介绍现代自然语言处理的基础和应用。在第四章和第五章中,将解释和讨论递归神经网络和卷积神经网络及其在自然语言处理中的应用。

迁移学习是每个任务或领域的学习模型的替代选择。在这里,可以使用相关任务或领域的现有标记数据来训练模型,并将其应用到感兴趣的任务或领域。这种方法的优点是不需要在目标域中进行长时间的训练,并且可以节省训练模型的时间,同时仍然可以(在很大程度上)获得更好的性能。迁移学习中使用的一个概念是注意力,它使解码器能够注意到整个输入序列,或自注意,它允许一个Transformer 模型处理所有输入单词,并建模一个句子中所有单词之间的关系,这使得快速建模一个句子中的长期依赖性成为可能。迁移学习的概念将在小册子的第6章简要介绍。第七章将通过ELMo、ULMFiT和GPT模型来描述迁移学习和LSTMs。第八章将详细阐述注意力和自注意力的概念。第九章将迁移学习与自注意力相结合,介绍了BERT模型、GTP2模型和XLNet模型。

为NLP建模,需要资源。为了找到任务的最佳模型,可以使用基准测试。为了在基准实验中比较不同的模型,需要诸如精确匹配、Fscore、困惑度或双语评估替补学习或准确性等指标。小册子的第十章简要介绍了自然语言处理的资源及其使用方法。第11章将解释不同的指标,深入了解基准数据集SQuAD、CoQa、GLUE和SuperGLUE、AQuA-Rat、SNLI和LAMBADA,以及可以找到资源的预训练模型和数据库,如“带代码的论文”和“大坏的NLP数据库”。

在小册子的最后一章中,介绍了生成性NLP处理自然语言生成,从而在人类语言中生成可理解的文本。因此,不同的算法将被描述,聊天机器人和图像字幕将被展示,以说明应用的可能性。

本文对自然语言处理中各种方法的介绍是接下来讨论的基础。小册子的各个章节将介绍现代的NLP方法,并提供了一个更详细的讨论,以及各种示例的潜力和限制。

成为VIP会员查看完整内容
0
162

当看到这些材料时,一个明显的问题可能会出现:“为什么还要写一本深度学习和自然语言处理的书呢?”一些优秀的论文已经出版,涵盖了深度学习的理论和实践方面,以及它在语言处理中的应用。然而,从我教授自然语言处理课程的经验来看,我认为,尽管这些书的质量非常好,但大多数都不是针对最有可能的读者。本书的目标读者是那些在机器学习和自然语言处理之外的领域有经验的人,并且他们的工作至少部分地依赖于对大量数据,特别是文本数据的自动化分析。这些专家可能包括社会科学家、政治科学家、生物医学科学家,甚至是对机器学习接触有限的计算机科学家和计算语言学家。

现有的深度学习和自然语言处理书籍通常分为两大阵营。第一个阵营专注于深度学习的理论基础。这对前面提到的读者肯定是有用的,因为在使用工具之前应该了解它的理论方面。然而,这些书倾向于假设一个典型的机器学习研究者的背景,因此,我经常看到没有这种背景的学生很快就迷失在这样的材料中。为了缓解这个问题,目前存在的第二种类型的书集中在机器学习从业者;也就是说,如何使用深度学习软件,而很少关注理论方面。我认为,关注实际方面同样是必要的,但还不够。考虑到深度学习框架和库已经变得相当复杂,由于理论上的误解而滥用它们的可能性很高。这个问题在我的课程中也很常见。

因此,本书旨在为自然语言处理的深度学习搭建理论和实践的桥梁。我涵盖了必要的理论背景,并假设读者有最少的机器学习背景。我的目标是让任何上过线性代数和微积分课程的人都能跟上理论材料。为了解决实际问题,本书包含了用于讨论的较简单算法的伪代码,以及用于较复杂体系结构的实际Python代码。任何上过Python编程课程的人都应该能够理解这些代码。读完这本书后,我希望读者能有必要的基础,立即开始构建真实世界的、实用的自然语言处理系统,并通过阅读有关这些主题的研究出版物来扩展他们的知识。

http://clulab.cs.arizona.edu/gentlenlp/gentlenlp-book-05172020.pdf

成为VIP会员查看完整内容
0
75

自然语言处理(NLP)为解决人工智能方面的问题提供了无限的机会,使Amazon Alexa和谷歌翻译等产品成为可能。如果您是NLP和深度学习的新手,那么本实用指南将向您展示如何使用PyTorch(一个基于python的深度学习库)应用这些方法。

作者Delip Rao和Brian McMahon为您提供了关于NLP和深度学习算法的坚实基础,并演示了如何使用PyTorch构建应用程序,其中包含针对您所面临问题的文本的丰富表示。每一章包括几个代码示例和插图。

  • 探索计算图表和监督学习范式
  • 掌握PyTorch优化张量操作库的基础知识
  • 对传统的NLP概念和方法进行概述
  • 学习建立神经网络的基本概念
  • 使用嵌入来表示单词、句子、文档和其他特性
  • 探索序列预测并生成序列对序列模型
  • 学习构建生产NLP系统的设计模式

https://www.oreilly.com/library/view/natural-language-processing/9781491978221/

成为VIP会员查看完整内容
0
89

语义表示是自然语言处理的基础,我们需要将原始文本数据中的有用信息转换为计算机能够理解的语义表示,才能实现各种自然语言处理应用。表示学习旨在从大规模数据中自动学习数据的语义特征表示,并支持机器学习进一步用于数据训练和预测。以深度学习为代表的表示学习技术,能够灵活地建立对大规模文本、音频、图像、视频等无结构数据的语义表示,显著提升语音识别、图像处理和自然语言处理的性能,近年来引发了人工智能的新浪潮。本书是第一本完整介绍自然语言处理表示学习技术的著作。书中全面介绍了表示学习技术在自然语言处理领域的最新进展,对相关理论、方法和应用进行了深入介绍,并展望了未来的重要研究方向。

本书全面介绍了自然语言处理表示学习技术的理论、方法和应用,内容包括三大部分:第一部分介绍了单词、短语、句子和文档等不同粒度语言单元的表示学习技术;第二部分介绍了与自然语言密切相关的世界知识、语言知识、复杂网络和跨模态数据的表示学习技术;第三部分整理了相关开放资源与工具,并探讨了面向自然语言处理的表示学习技术面临的重要挑战和未来研究方向。本书对于自然语言处理和人工智能基础研究具有一定的参考意义,既适合专业人士了解自然语言处理和表示学习的前沿热点,也适合机器学习、信息检索、数据挖掘、社会网络分析、语义Web等其他相关领域学者和学生作为参考读物。

成为VIP会员查看完整内容
0
136

书名: Deep Learning for Search

简介:

深度学习搜索是一本实用的书,关于如何使用(深度)神经网络来帮助建立有效的搜索引擎。这本书研究了一个搜索引擎的几个组成部分,提供了关于它们如何工作的见解以及如何在每个环境中使用神经网络的指导。重点介绍了基于实例的实用搜索和深度学习技术,其中大部分都有代码。同时,在适当的地方提供相关研究论文的参考资料,以鼓励阅读更多的书籍,加深对特定主题的知识。

读完这本书,将对搜索引擎的主要挑战有所理解,它们是如何被普遍解决的以及深度学习可以做些什么来帮助。并且将对几种不同的深度学习技术以及它们在搜索环境中的适用范围有一个理解,将很好地了解Lucene和Deeplearning4j库。

这本书主要分为3个部分:

  • 第1部分介绍了搜索、机器学习和深度学习的基本概念。第一章介绍了应用深度学习技术来搜索问题的原理,涉及了信息检索中最常见的方法。第2章给出了如何使用神经网络模型从数据中生成同义词来提高搜索引擎效率的第一个例子。

  • 第2部分讨论了可以通过深度神经网络更好地解决的常见搜索引擎任务。第3章介绍了使用递归神经网络来生成用户输入的查询。第四章在深度神经网络的帮助下,在用户输入查询时提供更好的建议。第5章重点介绍了排序模型:尤其是如何使用词嵌入提供更相关的搜索结果。第6章讨论了文档嵌入在排序函数和内容重新编码上下文中的使用。

  • 第3部分将介绍更复杂的场景,如深度学习机器翻译和图像搜索。第7章通过基于神经网络的方法为你的搜索引擎提供多语言能力来指导你。第8章讨论了基于内容的图像集合的搜索,并使用了深度学习模型。第9章讨论了与生产相关的主题,如微调深度学习模型和处理不断输入的数据流。

作者简介:

Tommaso Teofili是一名软件工程师,他对开源机器学习充满热情。作为Apache软件基金会的成员,他为许多开放源码项目做出了贡献,从信息检索到自然语言处理和机器翻译等主题。他目前在Adobe工作,开发搜索和索引基础结构组件,并研究自然语言处理、信息检索和深度学习等领域。他曾在各种会议上发表过搜索和机器学习方面的演讲,包括BerlinBuzzwords、计算科学国际会议、ApacheCon、EclipseCon等。

成为VIP会员查看完整内容
0
155
小贴士
相关论文
Xu Han,Weilin Zhao,Ning Ding,Zhiyuan Liu,Maosong Sun
3+阅读 · 5月24日
Thomas Hubert,Julian Schrittwieser,Ioannis Antonoglou,Mohammadamin Barekatain,Simon Schmitt,David Silver
4+阅读 · 4月13日
Jie Hu,Liujuan Cao,Qixiang Ye,Tong Tong,ShengChuan Zhang,Ke Li,Feiyue Huang,Rongrong Ji,Ling Shao
6+阅读 · 3月24日
Ryo Yonetani,Tatsunori Taniai,Mohammadamin Barekatain,Mai Nishimura,Asako Kanezaki
4+阅读 · 2月8日
Ke Sun,Zhouchen Lin,Zhanxing Zhu
11+阅读 · 2019年8月14日
Graph2Seq: Graph to Sequence Learning with Attention-based Neural Networks
Kun Xu,Lingfei Wu,Zhiguo Wang,Yansong Feng,Michael Witbrock,Vadim Sheinin
6+阅读 · 2018年12月3日
Knowledge Based Machine Reading Comprehension
Yibo Sun,Daya Guo,Duyu Tang,Nan Duan,Zhao Yan,Xiaocheng Feng,Bing Qin
3+阅读 · 2018年9月12日
Antoine J. -P. Tixier
10+阅读 · 2018年8月30日
Benjamin Recht
5+阅读 · 2018年6月25日
Top