谷歌搜索：几乎所有的英文搜索都用上BERT了 - 专知

会员服务 ·

0

谷歌搜索：几乎所有的英文搜索都用上BERT了

2020 年 11 月 24 日 机器之心

机器之心报道

机器之心编辑部

在前段时间举办的「Search On」活动中，谷歌宣布，BERT 现在几乎为谷歌搜索引擎上的每一个基于英文的查询提供支持。而在去年，这一比例仅为 10%。

BERT 是谷歌开源的一款自然语言处理预训练模型，一经推出就刷新了 11 项 NLP 任务的 SOTA 记录，登顶 GLUE 基准排行榜。

具体到搜索引擎来说，BERT 可以帮助搜索引擎更好地理解 web 页面上的内容，从而提高搜索结果的相关性。BERT 模型中创新性的 Transformer 架构是一大亮点。Transformer 处理一个句子中与所有其他单词相关的单词，而不是按顺序逐个处理。基于此，BERT 模型就可以借助某个单词前后的词来考虑其所处的完整语境，这对于理解查询语句背后的意图非常有用。

2019 年 9 月，谷歌宣布将 BERT 用到搜索引擎中，但仅有 10% 的英文搜索结果得到改善；2019 年 12 月，谷歌将 BERT 在搜索引擎中的使用扩展到 70 多种语言。如今，这家搜索巨头终于宣布：几乎所有英文搜索都能用上 BERT 了。

BERT 对于搜索引擎意味着什么？

作为自然语言处理领域里程碑式的进展，BERT 为该领域带来了以下创新：

利用无标签文本进行预训练；
双向上下文模型；
transformer 架构的应用；
masked 语言建模；
注意力机制；
文本蕴涵（下一句预测）；
……

这些特性使得 BERT 对于搜索引擎的优化非常有帮助，尤其是在消除歧义方面。用上 BERT 之后，对于比较长、会话性比较强的查询，或者在「for」、「to」等介词比较重要的语句中，谷歌搜索引擎将能够理解查询语句中词的上下文。用户可以用更加自然的方式进行搜索。

此外，BERT 对于搜索中的指代消解、一词多义、同形异义、命名实体确定、本文蕴涵等任务也有很大的帮助。其中，指代消解指的是追踪一个句子或短语在某个语境或广泛的会话查询中指代的是谁或什么东西；一词多义指同一个词有多个义项，几个义项之间有联系，搜索引擎需要处理模棱两可的细微差别；同形异义是指形式相同但意义毫不相同的词；命名实体确定是指从许多命名实体中了解文本与哪些相关；文本蕴含是指下一句预测。这些问题构成了搜索引擎面临的常见挑战。

在过去的一年，谷歌扩展了 BERT 在搜索引擎中的应用范围，「搜索引擎营销之父」Danny Sullivan 和 G-Squared Interactive 的 SEO 顾问 Glenn Gabe 等人在推特中介绍了谷歌搜索的最近亮点。

在谷歌搜索中，有十分之一的搜索查询拼写错误。很快，一项新的变革将帮助我们在检测和处理拼写错误方面取得比过去五年更大的进步。

另一个即将到来的变化是，谷歌搜索将能够识别网页中的单个段落，并将它们处理为与搜索最相关的段落。我们预计这会改善 7％的 Google 搜索查询。

Search On 2020：谷歌可以索引一个网页的段落，而不仅仅是整个网页。新算法可以放大一段回答问题的段落，而忽略页面的其余部分。从下个月开始。

使用人工智能，我们可以更好地检测视频的关键部分，并帮助人们直接跳到感兴趣的内容，而不需要创作者手动标记。到今年年底，10% 的谷歌搜索将使用这项技术。

此外，谷歌还表示，他们还应用神经网络来理解搜索相关的子主题，当你搜索宽泛的内容时，这有助于提供更多样化的内容。这项服务预计年底推出。

参考链接：

https://searchengineland.com/google-bert-used-on-almost-every-english-query-342193

https://searchengineland.com/a-deep-dive-into-bert-how-bert-launched-a-rocket-into-natural-language-understanding-324522

https://blog.google/products/search/search-on/

NeurIPS 2020线上分享：知识图谱嵌入的自动化

论文：《Interstellar: Searching Recurrent Architecture for Knowledge Graph Embedding》。

本篇论文作者受到神经架构搜索（NAS）的启发，提出将 Interstellar 作为一种处理关系路径中信息的循环架构。此外，该研究中的新型混合搜索算法突破了 stand-alone 和 one-shot 搜索方法的局限，并且有希望应用于其他具有复杂搜索空间的领域。

11月24日，第四范式资深研究员姚权铭博士将为大家详细解读此前沿研究。

识别二维码，入群一起看直播。

© THE END

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

登录查看更多

0

相关内容

谷歌搜索

谷歌公司（Google Inc.）成立于1998年9月4日，由拉里·佩奇和谢尔盖·布林共同创建，被公认为全球最大的搜索引擎。

【NeurIPS 2020】依图推出预训练语言理解模型ConvBERT

【NeurIPS 2020】依图推出预训练语言理解模型ConvBERT

专知会员服务

12+阅读 · 2020年11月13日

滑铁卢大学新书《基于预训练Transformer模型的文本排序》，204页pdf

滑铁卢大学新书《基于预训练Transformer模型的文本排序》，204页pdf

专知会员服务

44+阅读 · 2020年10月18日

【2020新书】预训练Transformer模型的文本排序

【2020新书】预训练Transformer模型的文本排序

专知会员服务

63+阅读 · 2020年10月18日

【NeurIPS 2020】融入BERT到并行序列模型

【NeurIPS 2020】融入BERT到并行序列模型

专知会员服务

26+阅读 · 2020年10月15日

【Contextual Embedding】什么时候上下文嵌入值得使用?

【Contextual Embedding】什么时候上下文嵌入值得使用?

专知会员服务

16+阅读 · 2020年8月2日

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

专知会员服务

44+阅读 · 2020年4月28日

Google BERT作者Jacob斯坦福亲授《上下文词向量与预训练语言模型: BERT到T5》43页ppt

Google BERT作者Jacob斯坦福亲授《上下文词向量与预训练语言模型: BERT到T5》43页ppt

专知会员服务

91+阅读 · 2020年4月6日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

Google AI发布Meena-构建一个无所不聊的含26亿参数模型的聊天机器人

Google AI发布Meena-构建一个无所不聊的含26亿参数模型的聊天机器人

专知会员服务

54+阅读 · 2020年1月29日

BERT进展2019四篇必读论文

BERT进展2019四篇必读论文

专知会员服务

69+阅读 · 2020年1月2日

多项NLP任务新SOTA，Facebook提出预训练模型BART

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

一文读懂最强中文NLP预训练模型ERNIE

一文读懂最强中文NLP预训练模型ERNIE

AINLP

25+阅读 · 2019年10月22日

超过Google，微信AI在NLP领域又获一项世界第一

超过Google，微信AI在NLP领域又获一项世界第一

量子位

6+阅读 · 2019年10月19日

BERT, RoBERTa, DistilBERT, XLNet的用法对比

BERT, RoBERTa, DistilBERT, XLNet的用法对比

AI科技评论

4+阅读 · 2019年9月15日

一文详解Google最新NLP模型XLNet

一文详解Google最新NLP模型XLNet

PaperWeekly

18+阅读 · 2019年7月1日

一步步理解BERT

一步步理解BERT

AINLP

34+阅读 · 2019年6月19日

站在BERT肩膀上的NLP新秀们（PART I）

站在BERT肩膀上的NLP新秀们（PART I）

AINLP

30+阅读 · 2019年6月4日

继BERT之后，这个新模型再一次在11项NLP基准上打破纪录

继BERT之后，这个新模型再一次在11项NLP基准上打破纪录

机器之心

8+阅读 · 2018年12月23日

韩国小哥哥用Pytorch实现谷歌最强NLP预训练模型BERT | 代码

韩国小哥哥用Pytorch实现谷歌最强NLP预训练模型BERT | 代码

量子位

8+阅读 · 2018年10月19日

阅读理解得分超越人类：谷歌推出最强预训练语言理解模型BERT

阅读理解得分超越人类：谷歌推出最强预训练语言理解模型BERT

DeepTech深科技

5+阅读 · 2018年10月14日

Deep Hedging under Rough Volatility

Arxiv

0+阅读 · 2021年2月3日

Broadcast Rate Requires Nonlinear Coding in a Unicast Index Coding Instance of Size 36

Arxiv

0+阅读 · 2021年2月2日

TinyBERT: Distilling BERT for Natural Language Understanding

TinyBERT: Distilling BERT for Natural Language Understanding

Arxiv

11+阅读 · 2019年9月23日

Revealing the Dark Secrets of BERT

Revealing the Dark Secrets of BERT

Arxiv

4+阅读 · 2019年9月11日

Semantics-aware BERT for Language Understanding

Arxiv

4+阅读 · 2019年9月5日

DocBERT: BERT for Document Classification

Arxiv

6+阅读 · 2019年8月22日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

MnasNet: Platform-Aware Neural Architecture Search for Mobile

Arxiv

4+阅读 · 2018年7月31日

Distance-based Self-Attention Network for Natural Language Inference

Arxiv

10+阅读 · 2017年12月6日

VIP会员

相关主题

相关VIP内容

【NeurIPS 2020】依图推出预训练语言理解模型ConvBERT

【NeurIPS 2020】依图推出预训练语言理解模型ConvBERT

专知会员服务

12+阅读 · 2020年11月13日

滑铁卢大学新书《基于预训练Transformer模型的文本排序》，204页pdf

滑铁卢大学新书《基于预训练Transformer模型的文本排序》，204页pdf

专知会员服务

44+阅读 · 2020年10月18日

【2020新书】预训练Transformer模型的文本排序

【2020新书】预训练Transformer模型的文本排序

专知会员服务

63+阅读 · 2020年10月18日

【NeurIPS 2020】融入BERT到并行序列模型

【NeurIPS 2020】融入BERT到并行序列模型

专知会员服务

26+阅读 · 2020年10月15日

【Contextual Embedding】什么时候上下文嵌入值得使用?

【Contextual Embedding】什么时候上下文嵌入值得使用?

专知会员服务

16+阅读 · 2020年8月2日

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

专知会员服务

44+阅读 · 2020年4月28日

Google BERT作者Jacob斯坦福亲授《上下文词向量与预训练语言模型: BERT到T5》43页ppt

Google BERT作者Jacob斯坦福亲授《上下文词向量与预训练语言模型: BERT到T5》43页ppt

专知会员服务

91+阅读 · 2020年4月6日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

Google AI发布Meena-构建一个无所不聊的含26亿参数模型的聊天机器人

Google AI发布Meena-构建一个无所不聊的含26亿参数模型的聊天机器人

专知会员服务

54+阅读 · 2020年1月29日

BERT进展2019四篇必读论文

BERT进展2019四篇必读论文

专知会员服务

69+阅读 · 2020年1月2日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】扩展可扩展会话推荐的边界

别想太多：高效 R1 风格大型推理模型综述

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应

智能体网络：用AI智能体编织下一代网络

相关资讯

多项NLP任务新SOTA，Facebook提出预训练模型BART

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

一文读懂最强中文NLP预训练模型ERNIE

一文读懂最强中文NLP预训练模型ERNIE

AINLP

25+阅读 · 2019年10月22日

超过Google，微信AI在NLP领域又获一项世界第一

超过Google，微信AI在NLP领域又获一项世界第一

量子位

6+阅读 · 2019年10月19日

BERT, RoBERTa, DistilBERT, XLNet的用法对比

BERT, RoBERTa, DistilBERT, XLNet的用法对比

AI科技评论

4+阅读 · 2019年9月15日

一文详解Google最新NLP模型XLNet

一文详解Google最新NLP模型XLNet

PaperWeekly

18+阅读 · 2019年7月1日

一步步理解BERT

一步步理解BERT

AINLP

34+阅读 · 2019年6月19日

站在BERT肩膀上的NLP新秀们（PART I）

站在BERT肩膀上的NLP新秀们（PART I）

AINLP

30+阅读 · 2019年6月4日

继BERT之后，这个新模型再一次在11项NLP基准上打破纪录

继BERT之后，这个新模型再一次在11项NLP基准上打破纪录

机器之心

8+阅读 · 2018年12月23日

韩国小哥哥用Pytorch实现谷歌最强NLP预训练模型BERT | 代码

韩国小哥哥用Pytorch实现谷歌最强NLP预训练模型BERT | 代码

量子位

8+阅读 · 2018年10月19日

阅读理解得分超越人类：谷歌推出最强预训练语言理解模型BERT

阅读理解得分超越人类：谷歌推出最强预训练语言理解模型BERT

DeepTech深科技

5+阅读 · 2018年10月14日

相关论文

Deep Hedging under Rough Volatility

Arxiv

0+阅读 · 2021年2月3日

Broadcast Rate Requires Nonlinear Coding in a Unicast Index Coding Instance of Size 36

Arxiv

0+阅读 · 2021年2月2日

TinyBERT: Distilling BERT for Natural Language Understanding

TinyBERT: Distilling BERT for Natural Language Understanding

Arxiv

11+阅读 · 2019年9月23日

Revealing the Dark Secrets of BERT

Revealing the Dark Secrets of BERT

Arxiv

4+阅读 · 2019年9月11日

Semantics-aware BERT for Language Understanding

Arxiv

4+阅读 · 2019年9月5日

DocBERT: BERT for Document Classification

Arxiv

6+阅读 · 2019年8月22日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

MnasNet: Platform-Aware Neural Architecture Search for Mobile

Arxiv

4+阅读 · 2018年7月31日

Distance-based Self-Attention Network for Natural Language Inference

Arxiv

10+阅读 · 2017年12月6日

大家都在搜

国防科技创新

大型语言模型

CMU博士论文

久别重逢话双塔

无人机测控通信自组网技术综述

微信扫码咨询专知VIP会员