语义搜索长期以来一直是谷歌、亚马逊和Netflix等巨头技术堆栈的关键组成部分。这些技术最近的普及化引发了搜索的复兴,这些曾经被保护的技术正在被传播,并迅速被各个可以想象的行业的组织采用。
地址:
https://www.pinecone.io/learn/nlp
为什么人们对语义搜索的兴趣会大爆发?它为许多产品和应用打开了一个必不可少的配方,其范围未知,但已经很广泛了。搜索引擎、自动更正、翻译、推荐引擎、错误日志等等都已经是语义搜索的忠实用户。许多可以从有意义的语言搜索或聚类功能中受益的工具都被语义搜索所强化。
两大支柱支持语义搜索:向量搜索和自然语言处理。在本课程中,我们将关注NLP的支柱以及它如何将“语义”引入语义搜索。我们在整个课程中引入概念和理论,然后用实际的、行业标准的代码和库来支持它们。
您将了解什么是密集向量,以及为什么它们是NLP和语义搜索的基础。我们将介绍如何构建最先进的语言模型,包括语义相似度、多语言嵌入、问答等等。学习如何在现实世界中应用这些方法,在现实世界中,我们经常缺乏合适的数据集或大量的计算能力。
简而言之,您将学习开始在语义搜索用例中应用NLP所需的一切知识。
让我们开始吧!
目录内容
第一章 密集向量 NLP密集向量嵌入概述
第二章 句子嵌入与变换器
句子嵌入和变换如何用于一系列语义相似度应用。在本文中,我们将通过使用一种叫做“句子变换器”的新型transformers来探索这些嵌入是如何被调整并应用于一系列语义相似度应用的。
第三章 用Softmax损失训练句子变换器
训练像SBERT这样的句子转换器用于语义搜索的原始方法。
第四章 用多重否定排序损失训练句子变形
如何用MNR损耗进行微调来制作句子转换器。
第五章 多语言句子变换器
如何用知识蒸馏创造多语言句子转换器。
第六章 问题回答
图解指南开放领域的问题回答。
第七章 句子变形的无监督训练
如何在没有标注数据的情况下创建句子转换器模型。
第八章 BERT数据增强
增强SBERT (AugSBERT)是一种增强特定领域数据集的训练策略。