谷歌搜索近5年来最大变化,使用BERT算法改进10%搜索结果

2019 年 10 月 28 日 新智元





  新智元报道  

编译:段亮亮
【新智元导读】Google搜索使用了BERT算法,以改进用户在输入搜索查询时的搜索结果。Google研究员兼搜索副总裁Pandu Nayak称:“这是我们过去五年中最大、最正向的变化,也许是自开始以来最大的变化。想了解更多资讯,欢迎来新智元 AI 朋友圈与大咖一起讨论~


Google推出了一项新技术,以改进用户在输入搜索查询时提供的结果,尽管很多用户可能没有注意到这点。


谷歌新算法BERT搭配最新Cloud TPU,更迅速、准确地提供搜索结果


谷歌目前正在对其核心搜索算法进行更改,并表示该算法可以改进10%的查询结果。它是Google研究人员基于尖端自然语言处理(NLP)开发的技术,BERT。


上周五,该公司宣布将开始使用在其研究实验室开发的名为BERT的人工智能系统,以帮助回应来自美国的英语会话查询用户。这把在美国用英语发起的查询搜索结果的匹配度提高了10%左右。后续将会推出面向其他语言和国家的算法。算法所做的更改主要是以技术方式理解语言和上下文语境,为用户提供更好的搜索响应。


Google称,这一技术的本质是通过更好地理解一个句子中各个单词之间的关联,来提升搜索结果的准确率。谷歌在一次新闻发布会上讨论了一个例子,其搜索算法能够解析以下短语的含义:“你能为某个药店买药吗?”


Google研究员兼搜索副总裁Pandu Nayak称,旧的Google搜索算法将该句子视为“单词袋”。它会关注重点词汇“药”和“药店”,并简单地给出与“药”和“药店”相关的查找结果。而新算法能够理解“为某人”一词的上下文,以意识到这是一个有关您是否可以接受他人处方的问题,并且给出了正确的结果。


例如,键入“在没有路缘的山坡上停车”,Google之前的算法通常会认为“停车(parking)”“路缘(curb)”很重要,而不是“没有(no)”,这意味着用户可能会得到有关在路边停车的搜索结果,但停车地点是“有路缘的山坡“。BERT则更善于理解关键字“没有”,并给出符合“no curb”的结果。



这项突破是Google研究Transformer的结果: 模型处理单词相对于句子中所有其他单词的方式,而不是一个接一个地处理单词。 因此,BERT模型可以通过查看单词前后的单词来考虑单词的全部上下文,这对于理解搜索查询的真正意思尤其有用。


经过调整的算法是基于BERT。首字母缩略词的每个单词都是NLP中的一个术语,但要点是BERT看起来不像“单词袋”那样处理句子,而是处理句子中的所有单词。这样做可以使它认识到“为某人”一词不应该被忽略,这对理解句子的意义是至关重要的。


Google提取了一个英语句子集,并随机删除了15%的单词,然后BERT的任务就是弄清楚被删掉的单词应该是什么。Google高级研究员兼研究高级副总裁Jeff Dean认为,随着时间的流逝,这种训练对于使NLP模型“理解”语境非常有效。


搜索的所有更改均经过一系列测试,以确保它们实际上在改善结果。其中一项测试涉及使用Google的人工审核人员队伍,他们通过对搜索结果的质量进行评级来训练该公司的算法,Google还进行了实时的A / B实时测试。


算法进步后,Google还配备了新硬件,Pandu Nayak称,“使用BERT构建的某些模型较为复杂,以至于它们限制了我们使用传统硬件可以完成的工作的极限,因此我们第一次使用最新的Cloud TPU来提供搜索结果并快速为您提供更多相关信息。”


算法的“黑匣子”问题,搜索算法或存在偏见


但并非每个查询都会受到BERT的影响,它只是Google用于对搜索结果进行排名的许多不同工具中的最新工具。究竟如何将它们完美地结合在一起,这还是一个谜。Google故意将其中的某些过程神秘化,以防止垃圾邮件发送者玩弄其系统。但还有一个重要的神秘原因:当计算机使用机器学习技术做出决策时,可能很难知道为什么要做出这些选择。


这就是机器学习“黑匣子”问题,是机器学习的一个普遍问题。因为如果结果在某种程度上是错误的,可能很难诊断原因。谷歌表示,它已经努力确保将BERT添加到其搜索算法中不会增加偏见,但其训练模型本身是有偏见的,由于BERT受过庞大的英语句子的训练,而这些句子本身也带有偏见,因此需要密切注意。


该公司还表示,至少在大型发行商看来,它预计算法不会直接或间接影响流量。每当Google提出更改搜索算法的信号时,就会引起网络用户的注意。因为一些公司的“生死存亡”是受到谷歌搜索排名的变化影响的。


最后,说到搜索结果的质量,Google研究员兼搜索副总裁Pandu Nayak说:“这是我们过去五年中最大、最正向的变化,也许是自开始以来最大的变化。”


登录查看更多
1

相关内容

互联网
BERT技术体系综述论文:40项分析探究BERT如何work
专知会员服务
138+阅读 · 2020年3月1日
BERT进展2019四篇必读论文
专知会员服务
66+阅读 · 2020年1月2日
了解情感分析中的NLP技术么?
七月在线实验室
9+阅读 · 2019年4月12日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
BERT-预训练的强大
微信AI
60+阅读 · 2019年3月7日
BERT霸榜问答任务,谷歌新基准模型缩小AI与人类差距50%
未来产业促进会
4+阅读 · 2019年1月31日
BERT大火却不懂Transformer?读这一篇就够了
大数据文摘
11+阅读 · 2019年1月8日
已删除
AI科技评论
4+阅读 · 2018年8月12日
Arxiv
6+阅读 · 2019年4月8日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
VIP会员
相关资讯
了解情感分析中的NLP技术么?
七月在线实验室
9+阅读 · 2019年4月12日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
BERT-预训练的强大
微信AI
60+阅读 · 2019年3月7日
BERT霸榜问答任务,谷歌新基准模型缩小AI与人类差距50%
未来产业促进会
4+阅读 · 2019年1月31日
BERT大火却不懂Transformer?读这一篇就够了
大数据文摘
11+阅读 · 2019年1月8日
已删除
AI科技评论
4+阅读 · 2018年8月12日
Top
微信扫码咨询专知VIP会员