40年前的「聊天记录」，两种「化石语言」，谷歌关Usenet讨论组引争议

2020 年 8 月 8 日 机器之心

机器之心报道

编辑：张倩、蛋酱

互联网的记忆，究竟该交给谁保管？

喜欢冲浪的早期网民可能听说过一个叫「Usenet」的讨论组应用。它的功能类似于我们今天用的贴吧、论坛，但使用方法却更接近邮箱客户端。

三四十年前，在没有浏览器的年代，我们的互联网前辈就在 Usenet 上交流想法，包括一些早期的码农。随着 Usenet 走向衰落，谷歌接管了该讨论组自 1981 年以来的大部分历史备份，并将其放在 Google Groups 上供所有人查看。

这些早期资料对于计算机界的「考古挖掘」非常有帮助，比如追溯某个词的词源、记录某种语言的演变。

然而，最近， 谷歌却突然关闭了其中的两个小组（Forth 和 Lisp），引发了社区的不满 。

Forth 和 Lisp 是两种非常「古老」的语言，年龄上和「上古语言」Cobol 不相上下（都诞生于上世纪五六十年代），Lisp 甚至比 Cobol 还大一岁。因此，这两个讨论组也称得上是历史悠久。

虽然随着新语言的不断崛起，这两种语言逐渐失去了自己的优势，变得不再流行，但我们还是希望关于他们的一些早期资料可以保留下来。这些资料说不定可以帮我们解决一些历史遗留问题（参见前段时间疯狂招聘「高龄程序员」的 COBOL）。

一位网友在 LWN.net 上发帖表示，「（这件事）所造成的影响是极具破坏性的，意味着两个社区的历史和集体记忆正在被擦除。」

由于 Usenet 在中国并未流行起来，我们可能无法体会这些外国网友的心情。但有一点是共通的：我们并不希望互联网上有价值的一些东西永远消失。

谷歌的这一举动不禁让我们联想起 GitHub 前不久实施的「北极代码库」项目。除了代码之外，整个互联网资料的保存问题或许也该多讨论一下了。

Usenet 是什么古董？从拨号上网谈起

上世纪七十年代，互联网和浏览器都还没有出现。那个年代的「上网」也叫「拨号上网」，就是通过调制解调器拨一个电话号码才能将自己的电脑与其他电脑（主机）相连，如果想换一台主机就得重新拨号。

这种上网方式有一个弊端：如果你想登录离你比较远的主机，首先电话费会比较贵；其次，当时的主机能力比较差，负担不起太多远程用户的同时登录。因此，登录同一台主机的通常是地理位置比较接近的用户。

在这种情况下，怎么和世界各地的网友建立联系呢？

1979 年，杜克大学的研究生汤姆 · 特拉斯科特与吉姆 · 埃利斯设计出了 一种分布式的互联网交流系统，取名为 Usenet（也叫 Newsgroup） 。

Usenet 分布在一个不断变化的大型服务器集群中，这些服务器在「新闻源」中相互存储和转发消息。它与 BBS/Web 论坛的主要区别在于其缺少中央服务器和管理员。

知名科技博主阮一峰曾在 2007 年的一个帖子中介绍过 Usenet 的运行机制：

从上面这个机制描述中我们可以看出， 在 Usenet 上的交流其实是一个不断上传下载的过程，使用起来真的很不方便，而且多数情况下还要付费 。

因此，经过了十几年的发展之后，这个讨论组从 90 年代开始衰落。PC Magazine 的萨沙 · 西根在 2008 年表示「Usenet 已经奄奄一息了」。

一个不符合时代发展潮流的工具逐渐退出历史舞台是一种必然，但问题在于： 上面存储的历史资料何去何从 ？

其实，早在 Usenet 创建之初就有人提到了这个问题。1982 年，一位名叫 Scott Orshan 的 Usenet 用户提出，「任何网站都应该永远保留它所发布的所有文章」。此外，他还提出了一种 Usenet 的分布式归档的方案。此后的数年，Usenet 一直在系统性地备份并储存积累的帖子，这些计划的参与者既包括个人，也包括商业公司，DejaNews 就是其中之一。

2001 年，谷歌收购了 DejaNews 并接手了该公司的 Usenet 存档，以此为基础创建了 Google Groups（谷歌网上论坛）。此后，谷歌又陆续收到了多方的存档捐赠，包括多伦多大学动物学系的亨利 · 斯宾塞存档（包含从 1981 年 5 月到 1991 年 6 月的帖子）、NetNews CD 系列的肯特 · 兰菲尔德和 GMD 的克里斯托弗尔（从 1991 年底至 1995 年初的存档）等。

可以说，在 Usenet 走向消亡的日子里，Google Groups 其实扮演了一个博物馆的角色，将 1981 年以来的 Usenet 讨论资料开放给所有人查阅。

然而，在大家都以为这是 Usenet 数据的最佳归宿时，谷歌却做出了一些令人失望的决定。

信任背后的隐患

2020 年，已经没有太多人会去 Google Groups 搜索上世纪的材料了，但我们知道，它们就在那里，想看随时都能看。

但现在，随着两个编程语言小组的关闭，这份寄托被打破了。

有人谴责谷歌辜负了大家的信任，没有承担起保护历史档案的责任。

有人从中看到了互联网公司在保存资料方面的「不靠谱」：「20 年前谷歌接管 Usenet 存档的时候大家都很开心，还把自己的存档捐给了谷歌。但现在，大家对于谷歌云平台 5 年后还能不能用都持怀疑态度。」

这次变动也引起了 Hackernews 社区的热议，一位网友提到了自己在参观美国地质调查局的有趣经历：

「策展人表示自己不喜欢谷歌（即使谷歌和他们相隔仅几个街区）。他说，谷歌是伟大的，因为谷歌地图更加精准，有着更高的覆盖度。」

但如果谷歌对地图数据感到厌烦并将其抛弃呢？

这位策展人被要求将所有的历史 arial 档案移交给谷歌进行扫描，然后告诉美国地质调查局不再进行 arial 扫描了，因为谷歌正在做这件事。然而谷歌并不会把扫描结果交还给美国地质调查局。

当时，这位网友曾经安慰策展人，表示谷歌永远也不会删除自己收集的数据。现在想来，这种担心不无道理。

互联网没有记忆？

「这就是整个互联网的问题。还记得那些在 20 世纪 90 年代或者 21 世纪初创建的页面吗？人们以为他们在和全世界分享这些信息。事实证明，那时候创建的页面现在大多都无法访问了，或者是被大公司排挤掉了。」

所以，有人尝试建立了个人博客，确保自己不被平台供应商所束缚，而且这种方式几乎是免费的。导流问题可以通过 Medium 的导入功能解决，但目前不确定能起到多大的效果。

也有人提到，为每个页面永久存档本就不是公司的职责。比如在英国，大英图书馆会对所有网站的年度快照进行收集保存。

其实，「互联网档案馆（Internet Archive）」等机构和个人也保存了一部分 Usenet 的早期资料，但可能没有谷歌那么丰富，尤其是 90 年代之前的一些数据。

随着时代的飞速发展，越来越多的互联网资料正在从我们的视线里消失。究竟谁应该担负起保存互联网档案的责任？这些资料要怎么保存？这些都是亟待解决的问题。

参考链接：

https://news.ycombinator.com/item?id=23977375

http://www.ruanyifeng.com/blog/2007/11/usenet.html

https://www.huxiu.com/article/299650.html

Amazon SageMaker 是一项完全托管的服务，可以帮助开发人员和数据科学家快速构建、训练和部署机器学习模型。SageMaker完全消除了机器学习过程中每个步骤的繁重工作，让开发高质量模型变得更加轻松。

现在，企业开发者可以免费领取1000元服务抵扣券，轻松上手Amazon SageMaker，快速体验5个人工智能应用实例。

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

登录查看更多

相关内容

Google Groups

关注 0

Google Groups/keep/

【干货书】现代 C++ 教程：高速上手 C++11/14/17/20，82页pdf

专知会员服务

82+阅读 · 2020年9月28日

【实用书】Python编程，140页pdf

专知会员服务

43+阅读 · 2020年8月20日

【干货书】用Python构建聊天机器人，205页pdf，使用自然语言处理和机器学习

专知会员服务

220+阅读 · 2020年6月14日

商业数据分析，39页ppt

专知会员服务

165+阅读 · 2020年6月2日

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

专知会员服务

44+阅读 · 2020年5月3日

C++17是什么？看这本最新指南书册《C++17标准语言新特性》109页pdf

专知会员服务

69+阅读 · 2020年2月23日

2019必读的十大深度强化学习论文

专知会员服务

59+阅读 · 2020年1月16日

纽约大学AI Now研究所发布《AI Now 2019 年度人工智能报告》, 100页pdf

专知会员服务

37+阅读 · 2019年12月18日

中科院信工所发布《深度学习系统的隐私与安全》综述论文，187篇文献总结

专知会员服务

103+阅读 · 2019年12月5日

【CAAI 2019】自然语言与理解，苏州大学| 周国栋教授

专知会员服务

63+阅读 · 2019年12月1日

人工智能背后的“人工”

i黑马

5+阅读 · 2018年10月14日

【每日安全资讯】AI公司面临隐私问题不少仍坚持原则拒绝商业机会

Linux中国

3+阅读 · 2018年7月10日

抖音完了！这次道歉也没用了

今日互联网头条

9+阅读 · 2018年7月2日

终于有人把云计算、大数据和人工智能讲明白了

Python开发者

3+阅读 · 2018年6月13日

我是一个爬虫

码农翻身

12+阅读 · 2018年6月4日

世界上最傻的事，就是一边渴望成为飞猪，一边对风口熟视无睹

腾讯创业

4+阅读 · 2018年5月2日

Google工程师带你了解聊天机器人的工作原理和未来发展

InfoQ

3+阅读 · 2018年3月25日

CCCF专栏：李航 | 人工智能的未来 ——记忆、知识、语言

中国计算机学会

7+阅读 · 2018年3月16日

国家终于出手了！因为低俗，今日头条遭遇史上最大危机！

创业财经汇

3+阅读 · 2017年12月30日

想和莎士比亚聊天吗？这款聊天机器人能帮你 | 潮科技

36氪

4+阅读 · 2017年9月20日

TransOMCS: From Linguistic Graphs to Commonsense Knowledge

Arxiv

8+阅读 · 2020年5月1日

Revealing the Dark Secrets of BERT

Arxiv

4+阅读 · 2019年9月11日

A Survey of the Usages of Deep Learning in Natural Language Processing

Arxiv

122+阅读 · 2019年9月11日

Direct Output Connection for a High-Rank Language Model

Arxiv

5+阅读 · 2018年8月31日

Phrase-Based & Neural Unsupervised Machine Translation

Arxiv

9+阅读 · 2018年8月13日

Scalable Generalized Dynamic Topic Models

Arxiv

7+阅读 · 2018年3月21日

Why not be Versatile? Applications of the SGNMT Decoder for Machine Translation

Arxiv

3+阅读 · 2018年3月20日

Understanding Chatbot-mediated Task Management

Arxiv

10+阅读 · 2018年2月9日

Variational Recurrent Neural Machine Translation

Arxiv

5+阅读 · 2018年1月16日

Multilingual Topic Models

Arxiv

3+阅读 · 2017年12月18日

VIP会员