谷歌搜索歧视特朗普？全面拆解Google搜索算法及优化

2018 年 9 月 18 日 新智元

新智元AI WORLD 2018世界人工智能峰会

倒计时2天

新智元将于9月20日在北京国家会议中心举办AI WORLD 2018世界人工智能峰会，南京大学计算机系主任、人工智能学院院长周志华教授届时将亲临会场做《关于机器学习的一点思考》主题演讲。周志华教授是AI领域会士“大满贯”得主，AAAI 2019程序主席、IJCAI 2021程序主席，《机器学习》一书的作者。

活动行购票二维码：

新智元报道

来源：CNBC

编译：大明，李静怡

【新智元导读】谷歌搜索算法究竟是怎么工作的？谷歌如何调整和改变其搜索算法，依据的标准和进行的测试是怎样的？为什么谷歌不做搜索结果个性化？本文告诉你全部答案。

自特朗普总统指责谷歌操纵搜索结果以来，谷歌一直否认其搜索系统存在任何政治偏见。

Google一下，净说我坏话！

尽管谷歌的个别员工在政治领域倾向于自由派，但没有证据表明搜索引擎的结果故意偏向任何特定的意识形态。

监管机构和Yelp等竞争对手批评谷歌通过其他网站的信息增强自己的服务，如地图，职位发布，商业评论和旅游信息等。去年，欧盟对谷歌的购物搜索结果开出了27亿美元的反托拉斯罚单，美国司法部副部长Jeff Sessions则公开调查包括谷歌在内的科技企业是否正在扼杀竞争。

为了揭开它如何运行其搜索引擎的神秘面纱，谷歌邀请CNBC参加了一个内部会议，会上搜索业务的主管们讨论是否要进行一项变动：在某些搜索结果旁边放上图片。

提议的更改很小，而且非常具体，谷歌的这项更改决定是数据驱动的。会议表明了谷歌是如何实现搜索产品的巨大复杂性和渐进式简洁的统一。

先来点基本知识：谷歌搜索的工作原理究竟是怎样的？

人们有时会对Google搜索进行拟人化，认为搜索引擎“理解”了他们的查询请求，比如用户输入“电影排球岛”，Google返回了汤姆·汉克斯的电影《荒岛求生》的相关结果。

但是，搜索引擎其实并不知道这些词是什么意思：而只是在搜索那些词及其同义词，甚至是常见的拼写错误出现的页面，以及和这些页面相关度最高的页面。

谷歌的程序（称为网络抓取工具）会搜索互联网，从数千亿个网页中收集信息。然后将这些数据存储在一个巨大的、不断变化的索引中，记录信息的新鲜度和页面创建位置等信号。当用户在搜索栏中输入内容时，会通过所谓Google搜索“算法”的一系列规则和流程提供这些信息和信号。在此过程中，将用户的查询请求与索引中的信息进行比较，并确定出现在搜索结果顶部的页面，这些过程都在几分之一秒内完成。

20年前，谷歌刚刚成立时，其中一个搜索排名指标是PageRank，以谷歌联合创始人拉里·佩奇的名字命名。PageRank根据有多少用户链接到某页面，判断该页面的与搜索内容相关性。也就是说，如果网上很多人发现一个页面足够有用，与其建立了链接，这个页面就可能比大家都忽略的页面的相关性更高。今天，PageRank仍然是Google算法尚在使用的排名因素之一。

谷歌故意没有透露排名系统的全部指标，部分原因是它不希望人们利用这些信息来玩弄搜索系统，因为出现在搜索页面顶部可以带来大量的流量和经济利益。

对这些指标保密，也有助于谷歌领先潜在的竞争对手。

如何提升谷歌搜索排名？关注页面的专业知识、权威性和可靠性

当谷歌考虑改变搜索的算法时，会组建一个团队对一小部分真实用户进行测试，了解他们的搜索习惯，也会与名为“搜索质量评估者”的承包商团队一起调查。

Google在全球范围内约有10000名评估者，虽然他们无法直接影响搜索结果，但他们的意见有助于Google的搜索小组评估是否应该实施调整。评估者通常会同时查看新旧搜索结果，并确定哪个更好。

“更好”并不是一个纯粹主观的判断。而是会由过去发布的搜索质量评估指南文档来定义，该文档描述评估者应如何判断显示在其结果中的页面的好坏。文档内容特别关注页面的专业知识、权威性和可信赖性。

“你可以将评估指南中的内容视为我们希望搜索算法的发展方向。”Google搜索、智能助理和新闻副总裁Ben Gomes表示。“他们虽然没有告诉你算法如何对结果进行排名，但从根本上说明了算法应该做什么。”

改不改，怎么改？一切由数据驱动

谷歌在今年7月份对该指南进行了一些重大更改，其中包括要求评估者考虑页面作者的声誉。因此，作者不明的页面现在可能被评为低质量页面。

2017年，谷歌与其评估者共同进行了31584次实验，并推出了2453次搜索规则更改。虽然这些更改会对任何给定网站的排名产生巨大影响，但普通谷歌搜索用户通常根本不会注意到这些更改。

在CNBC本次受邀参加的会议中，测试团队测试了一种新的移动搜索格式，在搜索结果旁边显示网页上的照片及链接。他们假定这样做可以帮助用户更好地确定要点击哪个链接，找到与搜索内容最相关的页面。

最终评估数据显示，91％的情况下，评估者发现展示图像很有用。在实时实验中，真实用户也点击了图片。在权衡了增加图片导致延迟增加与用户体验的正反馈之后，Gomes和Nayak批准了这次调整。

这次调整并没有激烈的辩论或哲学上的探索，是数据推动了这一决定。

“对此我们有严格的测试过程，” Gomes说。“我们的改动是数据指标驱动的，这是我们运营方式的核心。”

谷歌为什么不做个性化搜索？

谷歌会倾听用户的反馈意见，包括一些由于结果错误导致的丑闻事件，比如用户曾发现谷歌将白人至上主义网站链接为“大屠杀是否发生？”的第一个搜索结果。如果出现明显问题，谷歌不仅要去掉糟糕的搜索结果。更常见的情况是，谷歌要试图弄清楚如何更改其算法及其评估指南，以避免类似的错误。

通过不对搜索结果进行个性化，谷歌摆脱了大部分Facebook和Twitter所遭受的批评——创建“过滤圈”（filter bubbles），也即用户只看到他们原本就倾向于相信或喜欢的信息。（谷歌的视频产品YouTube则无法躲开这种批评，尤其是它对于相关视频的推荐算法。这两种算法是完全独立的，不是由同一个团队创建或维护。）

个性化也可能导致人们对谷歌失去信任。虽然谷歌没有对其大部分搜索排名进行个性化，但由于其收集的大量数据（Google允许用户关于其收集的数据管理进行隐私设置，但其方法在过去一直存在误导性），其广告非常个性化。

对于所有用户测试，谷歌知道错误不可避免，有时是因为有人故意破坏，有时是则是因为算法存在问题，还有的时候是因为结果反映了社会偏见。

“我们并不认为搜索是完美的，”Nayak说：“但我们绝对致力于应对我们所面临的挑战并继续改进。这就是人们在这里做的事情。”

其他时候，算法更改的想法来自公司内部的广泛意见。 Nahak表示，一些员工长期以来一直认为谷歌搜索结果应该更加个性化。目前，谷歌搜索个性化的内容很少，现有的搜索重点是用户的位置或先前搜索的直接上下文。（例如，如果你搜索了与棒球有关的东西，然后是“巨人队”，那么结果就不会影响到足球队。）

原文链接：

https://www.cnbc.com/2018/09/17/google-tests-changes-to-its-search-algorithm-how-search-works.html

新智元AI WORLD 2018世界人工智能峰会

倒计时 2 天

门票已开售！

新智元将于9月20日在北京国家会议中心举办AI WORLD 2018世界人工智能峰会，邀请机器学习教父、CMU教授 Tom Mitchell，迈克思·泰格马克，周志华，陶大程，陈怡然等AI领袖一起关注机器智能与人类命运。

大会官网：

http://www.aiworld2018.com/