信息论之父是如何将世界数字化的?

2019 年 2 月 18 日 人工智能学家

来源:CSDN

编译:弯月


机械鼠闯迷宫


在 20 世纪 50 年代早期的一段视频中,贝尔实验室的科学家克劳德·香农(Claude Shannon)展示了他的一项新发明:一只名为 Theseus 的机械鼠(看起来需要上发条)。略显憔悴的香农站在一个制作精良的桌面迷宫旁,解释说Theseus就是为了解这个迷宫而建造的。这只机械鼠通过反复试验找到了一系列畅通的入口,并记录了成功的路线。在第二次尝试中,Theseus沿着这条正确的路线走出了迷宫,没有犯任何错误。


随后香农揭开了Theseus成功的秘诀:那是通过一系列密集的继电器,这是来自贝尔系统的电话交换硬件。它相当于20世纪50年代的计算机芯片,只不过尺寸大约是现在硬件的一千倍,并且功能只有百万分之一。


虽然一些科学家和工程师可能已经意识到Theseus是一个重要的东西——一个聪明又会思考的机器,但在场的大多数观众却没有理会,可能他们认为这只是一个花哨的发条玩具,或者可能是传统国际象棋中骗人的土耳其机器人。


然而,Theseus背后蕴含着惊人的智慧。在推动20世纪中叶信息技术革命的计算机先驱者(这群精英学者工程师曾经破解了纳粹密码并确定导弹轨迹)中,香农可能是最杰出的一位。他的成就可以与爱因斯坦或费曼相媲美,但香农的名气却没有他们高。这可能因为有人认为他的作品不过是一些小玩意儿,所以被遭到了摈弃。也有可能是对于大众而言,他那些最伟大的工作成果看似是遥不可及的。


作为“信息论之父”,他大胆地将信息从意义上分离出来,将信息视为一堆比特,与世界没有明确的联系。从很多方面看来,他的作品不仅违反人的直觉,而且沉闷和偏僻。


他是如何成为信息论之父的?


一部新的香农传记《A Mind at Play: How Claude Shannon Invented the Information Age》重新描绘了这段历史。作者 Jimmy Soni 和 Rob Goodman 强烈希望将香农的作品展示给广大读者,这本书是按照时间顺序描写了香农的生平。从书里人们可以看到他训练有素解决谜题的方式,同时也很惊讶地发现他有一颗贪玩的心。例如,在书的开头 20 世纪 20 年代,年轻的香农在密歇根州的小镇,他将家周围的栅栏都变成了电报线。在 20 世纪末,香农领着一群麻省理工学院的学生参观了他位于波士顿郊区的家——一个装满了自制的小玩意和玩具的虚拟博物馆。


Soni 和 Goodman 在本书中着重描述了香农的两大成就。首先,当今所有计算机都采用的数字化,这完全归功于香农。在 20 世纪 30 年代,计算机先驱们基本上都用制表的技术来改进模拟差分机上笨重的轮子和齿轮,用 Soni 和 Goodman 话说:“差分机是工程中一条漫长的死胡同。”香农通过一篇论文最终将计算机科学引上了数字化的道路,而这篇论文常常被称作有史以来最具影响力的硕士论文。


1937年,21 岁的香农完成了这篇麻省理工学院的论文,证明了数字设备的开关可以用英国逻辑学家乔治布尔八十年前发明的真假符号来表示。香农凭一己之力将布尔代数引入到了电子电路设计,从根本上简化了工艺流程,一劳永逸地封闭了模拟设计的死胡同。


其次,现代通信从 20 世纪 50 年代的电视画面发展到当今高速且无处不在的多媒体数据文明,香农功不可没。香农最伟大的成就是1948年发表的《数学通信理论》(A Mathematical Theory of Communication),这篇论文一经发表立即受到了正在寻找用更快更有保障的方式发送消息的工程师们的追捧。该论文对消息的深入分析(消息的信息内容,如何将内容转换为通信渠道发送的信号以及最后完整地接收)为各种信息的传输提供了原理与依据。虽说这些技术名称(例如数据压缩,频道优化和降噪等)对你没有任何意义,但你需要依赖这些技术打电话,收看Netflix,或发送推文。


然而,虽然信息理论的产物非常丰富,但纯信息论的形式却没有显著的实用。理论本身太难以理解,信息理论的本质太缺乏实用性。因此,它完美地体现了香农在抽象方面的天赋。Soni 和 Goodman 写道,“香农总是有办法挖掘背后的事物。他可以透过事物的现象,挖掘出其后的本质。”


当香农开始研究信息理论时,他面临着中世纪的难题:编制与破解密码,如何通过电线和无线电在长距离中发送完整的信息,以及建立一个可以让所有人都互相连接的公共电话网络。Soni 和 Goodman 写道:“当时信息还难登大雅之堂。”香农的目标是通过一个全面的解决方案解决诸多不同的信息问题。


经过十年独自研究“发明工具”,香农于1948年完成了这项工作。他的数学已经扩展成为了一个前后一致且完整的系统,可以通过任何通信渠道传输各种形式的消息。香农在信息理论方面的成就可以与欧几里德的几何原理并驾齐驱。


为了实现一种严密的技术解决方案,香农在这个问题上加了限制条件。起初,他将“含义”定义为“工程问题无关”。因为如果考虑到所有“相关的物理或概念上的因素”的话,评价成功传输的含义就会变得极其困难。因此他减少了发送信息的行为,以便在有限的可能性中进行选择,并要求在另一端做同样的选择。如此一来就可以衡量准确度了——简单地将收到的消息与原始消息进行比较。


香农在他的工作成果中选择了英语做为例子。因此,香农能让读者理解什么是合理而什么是不合理。虽然在他“没有含义”的规定下,合理与不合理无关紧要,但我们可以通过它们从直觉上判断准确与不准确。同时,选择英语也打开了文学数据库的历史,利用字母的使用情况(字母的出现频率,以及单词的组合模式和频率)获得分析性和经验性的信息。这些统计数据是他的模型的重要组成部分。


香农需要一个信息的原子单位,于是他自己创造了一个。香农利用布尔的理论,将字母、图像和声音简化成比特——1和0的字符串。在消息被简化成比特后,数学关系就开始出现了。通过文本传递的信息可以通过其对接收者现有知识的贡献来衡量,换句话说,它的能力是解决不确定性。在信息论中,这就是“信息”。


香农根据欧几里德的公理和假设模型,开始着手定义信息理论的元素及其在系统中的作用。例如,“冗余”(可预测的或甚至重复的比特串)是消息中的累赘,或是没有重复却不知所云的乱码。Soni 和 Goodman 谈到,早期的跨大西洋电报经常会出现冗余,因为原始的水下电缆会造成失真,因此经常会导致长句子被整个重复,或迫使人们请求更多冗余——“Repeat, please.”(作者描写了一个场景,形容“在通信中,电报就像萨缪尔·贝克特的戏剧一般凄凉。”)


后来,香农发现这个复杂的系统尽管是动态可变的,但由一系列参数控制,可以通过马尔可夫(Markov)过程来描述。简而言之,马尔可夫过程是随机的,但它们的模式取决于它们的当前状态。例如,英语句子中的下一个字母是随机的,但根据当前的字母“q”很可能下一个就是“u”。这个发现揭示了我们可以将马尔可夫过程中使用的大量分析工具包用于现实世界中呈现的现象,如股票价格变动,人口增长和排队买冰淇淋等。


信息熵



正如长度、面积和体积的度量是欧几里德几何的基础一样,消息中信息的实际测量是信息理论的基本构成因素。单位(比特)已经定义好了,但是香农将如何确定消息中的总比特数呢?我们不禁想起香农对布尔的深刻了解,他从热动力学中引入了一个概念。他认为,在信息理论中,消息中的信息量应该称为“熵”。


在热动力学中,系统的属性(例如温度,体积和能量)定义其状态。我们知道热动力学状态具有所有上述属性,但不知道它们的值。同样,我们可能知道一条消息使用了一定数量的字母但不知道是哪些字母。在这两种情况下,我们用熵来测量状态(或消息)的预期值。拥有大量属性的热动力学状态与非常详尽的消息都具有很高的熵。


如果你希望在工作中看到信息理论的工具,可以看看下面的例子:

  • 马里奥·普佐的著作《教父》的 Kindle 电子书大约有一百万字节。我下载了一张 35,000 字节的马龙·白兰度扮演维托·柯里昂的照片。如果这本书大约有 172,000 个单词,或者每个单词7.5个字节,那么就说明维托的这张照片大约相当于5000个单词。

  • 目前,这篇评论的 Word 文件大约 35,000 字节,与维托·柯里昂的这种照片的大小相同。


香农建立了一个与信息理论一样完整和强大的结构,他还指出了复制他的行为时会遇到的困难。除了数学工作之外,“没有含义”的警告也为那些想达到香农那般严谨的分析标准的人带来了挑战,他还告诫人们不要过度思考事物。


许多人都未能明白这一点。自1948年香农的论文发表后,来自各个学科的人们都踊跃地在信息理论的白纸上描绘着自己的问题。( Soni 和 Goodman 在“TMI”的章节中总结了公众对信息理论的过度热情回应。)或许这也是预料之中的。从某些方面来说,每一位学者都在交流“信息”。尽管香农事前发出了警告,但是他从热动力学中借用熵的概念的行为,还是给人们留下了随意解释的后门。当发现闯入者没有领悟他给出的严谨的必要性提示时,他只好写文昭告天下了。


1956 年,在香农的一篇文章《The Bandwagon》中写道:“建立[新的]应用不是翻译单词的小事,而是假设并通过实验求证的缓慢且枯燥的过程。”


香农拒绝了大部分信息理论的新应用,但有一个例外。20 世纪 50 年代,他建议 John L. Kelly Jr.(一位毕业于麻省理工学院,在贝尔实验室工作的年轻人)在一篇论文中将信息理论与赌博联系起来。 Kelly 发现决定在某个给定风险上下多少赌注的过程与决定通过嘈杂的频道成功传输的信息量之间存在数学相似性。这篇论文提出了著名的金融理论“凯利公式”,即将资本分配到风险领域的规则。无论是二十一点的赌局还是股票市场,这条规则统统适用。


由于篇幅有限,Soni 和 Goodman 在书中对信息理论的扩展讨论很有限。但是熵和凯利提供了诱人的例子,值得让我们探索扩展将会走向何方。


后人研究


目前,信息学者正在追随物理学的领导,探索关于通信系统状态经典假设之外的东西,还结合了量子力学的概念。量子信息处理并没有采用比特来解析两个二进制状态,而是考虑叠加后多个状态的信息的可能性。(由此产生的量子信息测量被称为“量子比特”。) “量子香农理论”假定存在可应用于量子世界中的过程的效率(例如数据压缩或降噪技术)。


有没有其他现象可以使用信息论提供的模板来理解和描述?


也许有。1961 年,剑桥生理学家 H. B. Barlow 撰写了一篇论文,探讨神经系统如何通过生物体的神经系统进化编码,并高效地传递信息。Barlow 将他的模型称为“有效编码假设”,这引出了尤金·法马的“有效市场假说”。


法马的工作为全世界提供了金融市场风险与回报的分析工具和依据。凯利确立的信息与经济之间的相似之处揭示了一个问题:这些概念是否应该从香农到凯利转了一圈后又回到了香农这里。风险、收益、波动率和夏普比率等金融概念上的信息理论可以为某些形式的交流提供深刻的见解与原理。


避开含义是一个务实的决定,这成就了香农最伟大的胜利。与此同时,这是一种伎俩,一种诉讼员在法庭上使用的狡猾策略。审判开始时香农坐在板凳上,等着法官宣布任何提及“含义”的内容都不可接受。这虽然让他在眼前的工程问题上取得了胜利,但却没有履行“信息论”这个名称所暗示的承诺。


没有了含义,信息理论可以解决工程问题,但也只能解决工程问题。然而,由于含义而富于工程问题主导性的地位看似是一个仓促而又不光彩的让步。我们至少应该通过观察人工智能和机器学习当前的发展,来确定即将到来的机械霸主的规模。Soni 和 Goodman 写道:“拒绝含义让人产生一种与电话公司相关联的直觉——毕竟这是传输的事情,而不是解释的事情。”提起执行琐碎任务的官僚机构,我们难免会想起脸色苍白的国王的可怕形象。


香农显然没有想到信息理论的那种未来。1948年,香农在一篇论文中严辞令色地把矛头指向詹姆斯·乔伊斯说:


英语散文中有两个极其冗余的例子:《基础英语》和詹姆斯·乔伊斯的著作《芬尼根守灵夜》。《基础英语》的词汇量为850个,冗余度却非常高。这反映在将一段文字翻译成基础英语时发生的扩展。另一方面,乔伊斯扩大了词汇量,却宣称实现了对语义内容的压缩。


除此之外,香农在该论文的其他地方都没有用到“语义内容”一词,他也没有再建议使用某些版本的数据压缩。在论文的第二段,之前的十四页,他已经排除了含义。然而,我们不可能得出结论,这篇评论是故意的。在赢得没有含义的信息理论案件的同时,香农为了上诉敞开大门。


事实上,有含义的理论方法确实很多。例如,当代文学批评已经创造了许多受香农启发的科学概念,如索绪尔的符号学,德里达的解构主义,广泛的哲学语言学,以及与马歇尔麦克卢汉相关的更具文化导向的媒体研究领域。


尽管香农一再劝告,但顽固的科学家和工程师也已经深入了含义。


其中一位是 Warren Weaver 学者,他闻名于世是因为他以不那么令人生畏、没有那么多数学的方式重新发表了香农 1948 年的论文,同时他也在机器翻译方面取得了关键性的突破。根据定义,翻译这项任务需要的不仅仅是复制消息。 Weaver的方法采用了香农启发的关于如何使用单词聚类和通用语言元素来提高翻译能力和准确性的观点。 Weaver曾经写过一项技巧,这个技巧可以将口语的输入处理成计算机(甚至是早期的计算机)也能理解的程度:


“当然,基本[英语]中指代动作的动词(如get)有多种用途。但是即便如此,在基本英语中,两个单词的组合(例如'get up'、'get over'、'get back'等等)也不是很多。假设我们的词汇表有2000个单词,并且承认所有两个单词的组合词也与单个单词一样好。那么,词汇量也只有4百万,这个数据对现代计算机来说并不是太大。”

Theseus(那只老鼠)本身就是信息理论不断扩张边界的预兆。它不仅仅发送或接收有关其迷宫的信息。它寻找信息,然后利用信息来找到正确的路径,Theseus确定了香农认为“含义”的“某些物理或概念实体”之间的关系。

在考虑含义方面,人文主义者和科学家正朝着同一个目的地前进。在最近的一次采访中,《A Mind at Play》的合著者 Rob Goodman 指出,信息理论有可能统一两个分支:

实际上,香农的生活和工作质疑了整个“两种文化”的范式,另一方面,数学和科学以及人文学科彼此之间几乎没有共同语言……香农所做的并不仅仅是简单的数学运算。他还思考了那些同时也是语言学和哲学中的问题。



未来


信息理论能否打开数学科学与人文科学之间的通道?或者人与机器之间的通道?


最近 Facebook 决定关闭两个人工智能聊天机器人 Bob 和 Alice。这两个机器人都是用英语训练出来的,但是突然他俩之间开始用奇怪的语言流利地交流了起来,而且只有彼此才能理解。比如,Bob在与Alice就如何分割任务进行谈判时说:“I can i i everything else”。


有些观察人员认为这是“技术异常点”的预兆,他们担心“超级智能”机器培养了提高自身的能力,再这样下去它们会统治世界。这种担忧是合理的,但冷静下来想想这些机器人反映了人类行为以及它们会说什么也是很有趣的事。


Bob 的那句话是什么意思?不禁让人联想到人类语言在短信中所经历的变革。当我们使用行话、首字母缩略词、隐喻(以及添加更多维度、层次和多媒体)不也是为了压缩数据吗?


尽管藏书家和技术爱好者之间存在明显的文化差异,但克劳德·香农的信息理论工程概念让更多人性化元素相关联。如果我们进一步发展这种思想,信息理论会在良好的沟通方面发挥作用,至少可以跨越两种文化。


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。


  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”


登录查看更多
1

相关内容

最新《生成式对抗网络》简介,25页ppt
专知会员服务
173+阅读 · 2020年6月28日
【ICLR2020】图神经网络与图像处理,微分方程,27页ppt
专知会员服务
47+阅读 · 2020年6月6日
少标签数据学习,54页ppt
专知会员服务
198+阅读 · 2020年5月22日
Gartner:2020年十大战略性技术趋势, 47页pdf
专知会员服务
77+阅读 · 2020年3月10日
新时期我国信息技术产业的发展
专知会员服务
70+阅读 · 2020年1月18日
95岁的查理·芒格,一周读二十本书
三联生活周刊
7+阅读 · 2019年5月22日
人工智能能够预测地震吗?
人工智能学家
7+阅读 · 2018年12月10日
10000个科学难题 • 制造科学卷
科学出版社
13+阅读 · 2018年11月29日
丘成桐:攻克物理难题的数学大师
科技导报
5+阅读 · 2018年7月23日
如何用人工智能帮你找论文?
AI100
10+阅读 · 2018年2月21日
如何用Python和深度神经网络识别图像?
AI100
5+阅读 · 2018年1月8日
人工智能的阴暗面
计算机与网络安全
6+阅读 · 2018年1月8日
【人工智能】重磅:中国人工智能40年发展简史
产业智能官
7+阅读 · 2017年11月12日
一张通往计算机世界的地图
中科院物理所
8+阅读 · 2017年10月12日
Arxiv
4+阅读 · 2019年12月2日
Arxiv
3+阅读 · 2018年10月8日
Arxiv
11+阅读 · 2018年5月13日
VIP会员
相关VIP内容
最新《生成式对抗网络》简介,25页ppt
专知会员服务
173+阅读 · 2020年6月28日
【ICLR2020】图神经网络与图像处理,微分方程,27页ppt
专知会员服务
47+阅读 · 2020年6月6日
少标签数据学习,54页ppt
专知会员服务
198+阅读 · 2020年5月22日
Gartner:2020年十大战略性技术趋势, 47页pdf
专知会员服务
77+阅读 · 2020年3月10日
新时期我国信息技术产业的发展
专知会员服务
70+阅读 · 2020年1月18日
相关资讯
95岁的查理·芒格,一周读二十本书
三联生活周刊
7+阅读 · 2019年5月22日
人工智能能够预测地震吗?
人工智能学家
7+阅读 · 2018年12月10日
10000个科学难题 • 制造科学卷
科学出版社
13+阅读 · 2018年11月29日
丘成桐:攻克物理难题的数学大师
科技导报
5+阅读 · 2018年7月23日
如何用人工智能帮你找论文?
AI100
10+阅读 · 2018年2月21日
如何用Python和深度神经网络识别图像?
AI100
5+阅读 · 2018年1月8日
人工智能的阴暗面
计算机与网络安全
6+阅读 · 2018年1月8日
【人工智能】重磅:中国人工智能40年发展简史
产业智能官
7+阅读 · 2017年11月12日
一张通往计算机世界的地图
中科院物理所
8+阅读 · 2017年10月12日
Top
微信扫码咨询专知VIP会员