谷歌开源 robots.txt：使其成为一项互联网标准

会员服务 ·

谷歌开源 robots.txt：使其成为一项互联网标准

2019 年 7 月 2 日 云头条

谷歌希望让Robots Exclusion Protocol（机器人排除协议）成为一项互联网标准。

谷歌现向开源社区发布robots.txt，希望有一天这个系统能成为一项稳定的互联网标准。

周一，这个技术巨头概述了开源Robots Exclusion Protocol（REP）的举措——REP更广为人知的叫法是robots.txt，同时开源了其匹配的C ++库。

REP是网站管理员为试图访问网站的代码明确其行为的一种方式。最初的开发者Martijn Koster发现，他的网站被爬虫程序（crawler）所淹没，于是为了减轻服务器的压力，他在1994年开发了初版标准。

命令可以嵌入到文本文件中，该文本文件决定了爬虫程序的行为以及是否允许爬虫程序访问域名。

然而，REP并没有成为一项官方标准，因此自上世纪90年代以来，解读该协议的方式迥然不同，它也没有及时更新以适应的现代使用场合。

谷歌的三名研究人员Henner Zeller、Lizzi Harvey和Gary Illyes在博文中称：“自问世以来，REP就没有加以更新，以适应今天的极端情况。对于网站所有者来说，这个问题颇具挑战性，因为模糊的事实上的标准使得很难正确地编写规则。我们希望帮助网站所有者和开发者在互联网上营造令人惊叹的体验，而不是为如何控制爬虫程序而操心。”

谷歌现在已经创建了REP文档草案，并已将提案提交给互联网工程任务组（IETF），该组织负责推广自愿的互联网标准。

该草案并未改变Koster最初于1994年制定的规则，但确实扩展了面向现代网站的robots.txt解析和匹配功能，比如除了HTTP外还加入了FTP和CoAP。

此外，谷歌已提议应解析robots.txt文件的前500千字节（kibibyte），以减轻服务器负载，并且还可以实现24小时的最大缓存时间，以防止网站被索引请求所淹没。

谷歌目前正就规则草案征求反馈意见。

谷歌补充道：“我们在努力为互联网创建者提供控制权，以便告诉我们他们想要为谷歌机器人程序（Googlebot）提供多少信息，进而可以在搜索结果中合法地出现，我们要确保我们做好这一点。”

Github：https://github.com/google/robotstxt

登录查看更多

相关内容

谷歌

关注 13

谷歌公司（Google Inc.）成立于1998年9月4日，由拉里·佩奇和谢尔盖·布林共同创建，被公认为全球最大的搜索引擎。公司总部称为“Googleplex”，位于美国加州圣克拉拉县的芒廷维尤。业务包括互联网搜索、云计算、广告技术等，同时开发并提供大量基于互联网的产品与服务，其主要利润来自于AdWords等广告服务。

打怪升级！2020机器学习工程师技术路线图

专知会员服务

99+阅读 · 2020年6月3日

【ICML2020-哈佛】深度语言表示中可分流形

专知会员服务

13+阅读 · 2020年6月2日

【实用书】Python爬虫Web抓取数据，第二版，306页pdf

专知会员服务

122+阅读 · 2020年5月10日