谷歌搜索:几乎所有的英文搜索都用上BERT了

2020 年 11 月 24 日 机器之心

机器之心报道

机器之心编辑部

在前段时间举办的「Search On」活动中,谷歌宣布,BERT 现在几乎为谷歌搜索引擎上的每一个基于英文的查询提供支持。而在去年,这一比例仅为 10%。



BERT 是谷歌开源的一款自然语言处理预训练模型,一经推出就刷新了 11 项 NLP 任务的 SOTA 记录,登顶 GLUE 基准排行榜。

具体到搜索引擎来说,BERT 可以帮助搜索引擎更好地理解 web 页面上的内容,从而提高搜索结果的相关性。BERT 模型中创新性的 Transformer 架构是一大亮点。Transformer 处理一个句子中与所有其他单词相关的单词,而不是按顺序逐个处理。基于此,BERT 模型就可以借助某个单词前后的词来考虑其所处的完整语境,这对于理解查询语句背后的意图非常有用。

2019 年 9 月,谷歌宣布将 BERT 用到搜索引擎中,但仅有 10% 的英文搜索结果得到改善;2019 年 12 月,谷歌将 BERT 在搜索引擎中的使用扩展到 70 多种语言。如今,这家搜索巨头终于宣布:几乎所有英文搜索都能用上 BERT 了。

BERT 对于搜索引擎意味着什么?

作为自然语言处理领域里程碑式的进展,BERT 为该领域带来了以下创新:

  • 利用无标签文本进行预训练;

  • 双向上下文模型;

  • transformer 架构的应用;

  • masked 语言建模;

  • 注意力机制;

  • 文本蕴涵(下一句预测);

  • ……


这些特性使得 BERT 对于搜索引擎的优化非常有帮助,尤其是在消除歧义方面。用上 BERT 之后,对于比较长、会话性比较强的查询,或者在「for」、「to」等介词比较重要的语句中,谷歌搜索引擎将能够理解查询语句中词的上下文。用户可以用更加自然的方式进行搜索。

此外,BERT 对于搜索中的指代消解、一词多义、同形异义、命名实体确定、本文蕴涵等任务也有很大的帮助。其中,指代消解指的是追踪一个句子或短语在某个语境或广泛的会话查询中指代的是谁或什么东西;一词多义指同一个词有多个义项,几个义项之间有联系,搜索引擎需要处理模棱两可的细微差别;同形异义是指形式相同但意义毫不相同的词;命名实体确定是指从许多命名实体中了解文本与哪些相关;文本蕴含是指下一句预测。这些问题构成了搜索引擎面临的常见挑战。

在过去的一年,谷歌扩展了 BERT 在搜索引擎中的应用范围,「搜索引擎营销之父」Danny Sullivan 和 G-Squared Interactive 的 SEO 顾问 Glenn Gabe 等人在推特中介绍了谷歌搜索的最近亮点。

在谷歌搜索中,有十分之一的搜索查询拼写错误。很快,一项新的变革将帮助我们在检测和处理拼写错误方面取得比过去五年更大的进步。


另一个即将到来的变化是,谷歌搜索将能够识别网页中的单个段落,并将它们处理为与搜索最相关的段落。我们预计这会改善 7%的 Google 搜索查询。



Search On 2020:谷歌可以索引一个网页的段落,而不仅仅是整个网页。新算法可以放大一段回答问题的段落,而忽略页面的其余部分。从下个月开始。



使用人工智能,我们可以更好地检测视频的关键部分,并帮助人们直接跳到感兴趣的内容,而不需要创作者手动标记。到今年年底,10% 的谷歌搜索将使用这项技术。



此外,谷歌还表示,他们还应用神经网络来理解搜索相关的子主题,当你搜索宽泛的内容时,这有助于提供更多样化的内容。这项服务预计年底推出。



参考链接:
https://searchengineland.com/google-bert-used-on-almost-every-english-query-342193
https://searchengineland.com/a-deep-dive-into-bert-how-bert-launched-a-rocket-into-natural-language-understanding-324522
https://blog.google/products/search/search-on/

NeurIPS 2020线上分享:知识图谱嵌入的自动化

论文:《Interstellar: Searching Recurrent Architecture for Knowledge Graph Embedding》。

本篇论文作者受到神经架构搜索(NAS)的启发,提出将 Interstellar 作为一种处理关系路径中信息的循环架构。此外,该研究中的新型混合搜索算法突破了 stand-alone 和 one-shot 搜索方法的局限,并且有希望应用于其他具有复杂搜索空间的领域。

11月24日第四范式资深研究员姚权铭博士将为大家详细解读此前沿研究。

识别二维码,入群一起看直播。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

登录查看更多
0

相关内容

谷歌公司(Google Inc.)成立于1998年9月4日,由拉里·佩奇和谢尔盖·布林共同创建,被公认为全球最大的搜索引擎。
【NeurIPS 2020】依图推出预训练语言理解模型ConvBERT
专知会员服务
11+阅读 · 2020年11月13日
【2020新书】预训练Transformer模型的文本排序
专知会员服务
61+阅读 · 2020年10月18日
【NeurIPS 2020】融入BERT到并行序列模型
专知会员服务
25+阅读 · 2020年10月15日
【Contextual Embedding】什么时候上下文嵌入值得使用?
专知会员服务
15+阅读 · 2020年8月2日
BERT进展2019四篇必读论文
专知会员服务
66+阅读 · 2020年1月2日
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
一文读懂最强中文NLP预训练模型ERNIE
AINLP
25+阅读 · 2019年10月22日
超过Google,微信AI在NLP领域又获一项世界第一
量子位
6+阅读 · 2019年10月19日
BERT, RoBERTa, DistilBERT, XLNet的用法对比
AI科技评论
4+阅读 · 2019年9月15日
一文详解Google最新NLP模型XLNet
PaperWeekly
17+阅读 · 2019年7月1日
一步步理解BERT
AINLP
34+阅读 · 2019年6月19日
站在BERT肩膀上的NLP新秀们(PART I)
AINLP
30+阅读 · 2019年6月4日
Arxiv
0+阅读 · 2021年2月3日
Revealing the Dark Secrets of BERT
Arxiv
4+阅读 · 2019年9月11日
Arxiv
4+阅读 · 2019年9月5日
Arxiv
6+阅读 · 2019年8月22日
Arxiv
22+阅读 · 2018年8月30日
VIP会员
相关VIP内容
【NeurIPS 2020】依图推出预训练语言理解模型ConvBERT
专知会员服务
11+阅读 · 2020年11月13日
【2020新书】预训练Transformer模型的文本排序
专知会员服务
61+阅读 · 2020年10月18日
【NeurIPS 2020】融入BERT到并行序列模型
专知会员服务
25+阅读 · 2020年10月15日
【Contextual Embedding】什么时候上下文嵌入值得使用?
专知会员服务
15+阅读 · 2020年8月2日
BERT进展2019四篇必读论文
专知会员服务
66+阅读 · 2020年1月2日
相关资讯
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
一文读懂最强中文NLP预训练模型ERNIE
AINLP
25+阅读 · 2019年10月22日
超过Google,微信AI在NLP领域又获一项世界第一
量子位
6+阅读 · 2019年10月19日
BERT, RoBERTa, DistilBERT, XLNet的用法对比
AI科技评论
4+阅读 · 2019年9月15日
一文详解Google最新NLP模型XLNet
PaperWeekly
17+阅读 · 2019年7月1日
一步步理解BERT
AINLP
34+阅读 · 2019年6月19日
站在BERT肩膀上的NLP新秀们(PART I)
AINLP
30+阅读 · 2019年6月4日
相关论文
Arxiv
0+阅读 · 2021年2月3日
Revealing the Dark Secrets of BERT
Arxiv
4+阅读 · 2019年9月11日
Arxiv
4+阅读 · 2019年9月5日
Arxiv
6+阅读 · 2019年8月22日
Arxiv
22+阅读 · 2018年8月30日
Top
微信扫码咨询专知VIP会员