谷歌「我不是机器人」按钮隐藏了，但你的隐私暴露了

2019 年 7 月 6 日 机器之心

选自fastcompany

作者：KATHARINE SCHWAB

机器之心编译

参与：韩放、张倩

reCaptcha 是谷歌的验证系统，用于防止网页被不法用户恶意攻击。由于被频繁破解，目前谷歌已经将其升级到了第三代——reCaptcha v3。新版的 reCaptcha 通常不会弹出「我不是机器人」复选框让用户打钩，似乎提升了用户体验。但天下没有免费的午餐，有些事情可能是谷歌没有告诉你的……

我们都曾试图登录一个网站或提交一份表格，结果却被困在交通灯、店面或桥梁的点击框中，不顾一切地试图最终说服计算机我们不是真正的机器人。

多年来，这一直是 reCaptcha（谷歌运行的互联网机器人检测仪）确定用户是否是机器人的主要方法之一。但去年秋天，谷歌推出了一个新版本的工具，目的是彻底消除这种恼人的用户体验。现在，当你在一个使用 recaptcha v3 的网站上输入一个表单时，你不会看到「我不是机器人」复选框，也不需要证明你知道猫的样子。相反，你什么都看不见。

「这对用户来说是更好的体验。每个人都有无法通过验证码的时候，」谷歌的 reCaptcha 产品负责人 Cy Khormaee 说。相反，谷歌会分析用户浏览网站的方式，并根据其行为的恶意程度为他们分配风险评分。Khormaee 没有透露谷歌用来确定这些分数的依据，因为他说这将使骗子更容易模仿良性用户，但他相信，新版的 reCaptcha 会给那些支付少量资金在网上破解验证码以欺骗谷歌系统的机器人或破解者们带来难以置信的困难。

「你必须了解正常用户在网站上的行为，并模仿得足够好，才能骗过我们，」他说。「这不仅仅是『假装我是人』那么简单。」网站管理员随后可以获取他们的访问者的风险评分，并决定如何处理这些评分：例如，如果风险评分高的用户试图登录，网站可以通过双因素认证（two-factor authentication）设置规则要求他们输入额外的验证信息。如 Khormaee 所说，「最糟糕的情况是，我们给合法用户带来了一些不便，但如果使用者非法，我们会阻止用户的帐户被盗。」

据科技网站 Built With 统计，已有 65 万多个网站使用 reCaptcha v3；总的来说，至少有 450 万个网站使用 reCaptcha，包括前 10000 网站中的 25%。谷歌现在也在测试一个企业版的 reCaptcha v3，在这个版本中，谷歌为那些需要更加精确用户风险水平数据的企业创建了一个自定义的 reCaptcha，以保护他们的网站算法不受恶意用户和机器人程序的攻击。

但是这个基于风险评分的新系统带来了一个严重的权衡：用户隐私。

据研究过 reCaptcha 的两位安全研究人员介绍，谷歌判断恶意用户的方法之一就是你是否在你的浏览器上安装了谷歌 cookie。cookie 允许你在浏览器中打开新的标签，而不必每次都重新登录到你的 Google 帐户。但研究过 reCaptcha 的多伦多大学计算机科学博士研究生 Mohamed Akrout 说，谷歌似乎也在用它的 cookie 来确定 reCaptcha v3 测试中的人是否是人。Akrout 在 4 月份的一篇论文中写到，在一个连接了谷歌账户的浏览器上运行的 reCaptcha v3 比没有连接谷歌账户的浏览器获得了更低的风险分数。他说：「如果你有一个谷歌账户，你更有可能是人类。」对于谷歌 cookie 在 reCaptcha 中所扮演的角色，谷歌没有做出回应。

Marcos Perona 和 Akrout 是两名技术顾问，他们在浏览器上访问使用 reCaptcha v3 的测试网站时发现，如果已经登录到 Google 帐户，他们的 reCaptcha 分数总是低风险的。然而，如果他们通过 Tor 或 VPN 等私人浏览器访问测试网站，他们的分数是高风险的。

为了使这个风险评分系统准确工作，网站管理员应该在其网站的所有页面上嵌入 reCaptcha v3 代码，而不仅仅是在表单或登录页面上。然后，reCaptcha 会随着时间的推移了解其网站用户的典型行为，帮助其基础的机器学习算法生成更准确的风险评分。因为 reCaptcha v3 很可能出现在网站的每一页上，如果你登录到你的 Google 帐户，Google 就有可能获得你访问的每一个网页的数据，这些网页嵌入了 reCaptcha v3，而且在网站上，除了隐藏在角落里的一个小的 reCaptcha 标志外，很多都没有任何视觉指示。

Khormaee 不会以任何方式说明 Google 使用数据进行 reCaptcha 的方式，而是在 Google 的服务条款中提及了 Fast Company，该条款在大多数网站的 reCaptcha 徽标下都有链接。但是，他们没有在服务条款任何地方提到会进行 reCaptcha。在这篇文章发表后，谷歌表示，Recaptcha 的 API 将硬件和软件信息（包括设备和应用程序数据）发送回谷歌进行分析，并且该服务仅用于抵制垃圾邮件和滥用。

Perona 认为，谷歌鼓励网站管理员将 reCaptcha 放在他们的网站上，然后与这些管理员共享由此产生的风险评分，这对安全性很有好处，因为这「让网站所有者更容易识别和控制潜在诈骗犯和机器人攻击」。如果 reCaptcha 只使用来自单个网页的数据来分析用户行为，那么系统会给管理员更准确的分数。但这是一种权衡。他说：「这很有意义，也让它对用户更加友好，但同时也给了谷歌更多的数据。」谷歌不会澄清它如何处理通过 reCaptcha 捕捉的用户行为数据，只是说这些数据用于改进 reCaptcha 并提升安全性。

这种基于 cookie 的数据收集也发生在互联网的其他地方。大公司利用它来评估他们的用户在网上冲浪时的去向，然后利用这些信息进行更有针对性的广告投放。例如，谷歌的 reCaptcha cookie 与 Facebook「like」按钮的逻辑相同，当它嵌入其他网站时，它会给该网站一些社交媒体功能，但也会让 Facebook 知道你在看什么。此前，谷歌曾表示，从 reCaptcha 获取的数据不用于广告定位或分析用户兴趣和偏好。这篇文章发表后，谷歌表示，通过 reCaptcha 收集的信息不会被谷歌用于个性化广告。

Perona 认为，谷歌使用 reCaptcha 是一种「在线圈地」的行为，加强了谷歌对互联网的控制。他认为，reCaptcha 与其他谷歌产品（如加速移动页面（AMP））相似，后者是一个使新闻网站页面在移动设备上加载更快的程序，但对于谷歌是否会将网络流量从新闻网站上带走，媒体感到有些错愕。谷歌 Chrome 也是如此，《华盛顿邮报》最近称其称之为「监视软件」。

「这总是一把双刃剑，」Perona 说。「你得到了一些东西，但是你也给了谷歌更多的在线控制权。」安全性和用户体验得到了提升，但隐私可能会受到影响。

谷歌没有解决任何潜在的隐私问题，并坚持 reCaptcha v3 是一个企业责任问题。它将 reCaptcha v3 视为确保安全、流畅在线体验的一种方式。「谷歌与互联网的融合如此之深，」Khormaee 说。「我们想尽一切办法保护它。」