谷歌希望让Robots Exclusion Protocol(机器人排除协议)成为一项互联网标准。
谷歌现向开源社区发布robots.txt,希望有一天这个系统能成为一项稳定的互联网标准。
周一,这个技术巨头概述了开源Robots Exclusion Protocol(REP)的举措——REP更广为人知的叫法是robots.txt,同时开源了其匹配的C ++库。
REP是网站管理员为试图访问网站的代码明确其行为的一种方式。最初的开发者Martijn Koster发现,他的网站被爬虫程序(crawler)所淹没,于是为了减轻服务器的压力,他在1994年开发了初版标准。
命令可以嵌入到文本文件中,该文本文件决定了爬虫程序的行为以及是否允许爬虫程序访问域名。
然而,REP并没有成为一项官方标准,因此自上世纪90年代以来,解读该协议的方式迥然不同,它也没有及时更新以适应的现代使用场合。
谷歌的三名研究人员Henner Zeller、Lizzi Harvey和Gary Illyes在博文中称:“自问世以来,REP就没有加以更新,以适应今天的极端情况。对于网站所有者来说,这个问题颇具挑战性,因为模糊的事实上的标准使得很难正确地编写规则。我们希望帮助网站所有者和开发者在互联网上营造令人惊叹的体验,而不是为如何控制爬虫程序而操心。”
谷歌现在已经创建了REP文档草案,并已将提案提交给互联网工程任务组(IETF),该组织负责推广自愿的互联网标准。
该草案并未改变Koster最初于1994年制定的规则,但确实扩展了面向现代网站的robots.txt解析和匹配功能,比如除了HTTP外还加入了FTP和CoAP。
此外,谷歌已提议应解析robots.txt文件的前500千字节(kibibyte),以减轻服务器负载,并且还可以实现24小时的最大缓存时间,以防止网站被索引请求所淹没。
谷歌目前正就规则草案征求反馈意见。
谷歌补充道:“我们在努力为互联网创建者提供控制权,以便告诉我们他们想要为谷歌机器人程序(Googlebot)提供多少信息,进而可以在搜索结果中合法地出现,我们要确保我们做好这一点。”
Github:https://github.com/google/robotstxt