纪念机器翻译概念的诞生 —重新认识瓦伦·韦弗先生

2020 年 7 月 16 日 AINLP


作者:张家俊(中国科学院自动化研究所研究员)

原文链接,可点击文末"阅读原文"直达:

https://zhuanlan.zhihu.com/p/160125861




机器翻译旨在利用计算机实现自然语言之间的自动翻译,一直是自然语言处理与人工智能领域的重要研究方向,近年来更是取得了突破性进展,已成为大众较为熟知和常用的技术。现在一提起机器翻译技术的起源,对该研究领域稍有了解的人们都知道是美国的瓦伦·韦弗(Warren Weaver,后面简称韦弗)最先于1947年提出机器翻译概念并于1949年7月正式记录于名为《翻译》的备忘录。不过,可能大多数人不是特别了解韦弗究竟是何许人也以及他怎么会提出机器翻译的概念。作为机器翻译领域的一名研究者,我对这些问题非常感兴趣,也希望让更多人了解机器翻译概念诞生的那些趣事和史实。

如果让大家猜测的话,可能会认为韦弗是一位从事语言翻译的学者,由于人工翻译任务繁重从而产生利用计算机进行自动翻译的想法。其实不然,他的人生经历着实会让人惊叹不已。如果您认为他提出了机器翻译的概念已经足够伟大,那么可以再告诉您韦弗是位数学家,二战期间曾帮助美军革新了防控火控系统和轰炸机技术,而且他首次提出了分子生物学的概念,他还与信息论之父香侬一同撰写了划时代意义的著作《通信的数学原理》(The Mathematical Theory of Communication)。有点尴尬的发现,机器翻译似乎仅仅是他的一个小小爱好而已。如此多不同领域的贡献竟然集中于一人之身,足见韦弗的不凡之处。可能我们会有疑问,韦弗到底从事哪种职业呢?实际上很难用教授、研究员或者科学家某个称谓概括他的职业生涯。下面,让我们慢慢走进韦弗的人生。

从威斯康星到纽约

韦弗1894年7月17日出生于美国威斯康星州的里兹堡市,从小酷爱各种捣鼓,立志成为一名工程师。进入威斯康星大学后,受到查尔斯·斯莱希特(Charles Slichter)和马克思·马森(Max Mason)两位老师的影响(需要重点记得马森,他似乎要对韦弗的职业生涯负责到底),韦弗发现自己的兴趣和热情并不在工程技术,而是应用数学和理论物理,从而毅然转向数学,于1916年获得数学学位,并于1917年获得了土木工程的学位,看来他还是没有完全放弃工程技术。大学毕业后在马森的推荐下去施罗普大学(大名鼎鼎的加州理工学院的前身)做过短暂的数学老师,之后在美国空军服役了两年。退役后回到威斯康星大学继续博士研究,1921年获得博士学位。毕业后留校担任数学教授,并于1928年起担任威斯康星大学数学系主任,按照韦弗自己的说法他不太擅长数学研究,如果这样下去人生注定平淡无奇。这时候,韦弗的人生导师马森再次出场,先是邀请韦弗一起撰写了经典物理教科书《电磁场》(The electromagnetic field),并且在其担任洛克菲勒基金会总裁后力邀韦弗担任马森之前负责的该基金会自然科学部的主任。洛克菲勒基金会总部位于纽约,换工作的话意味着不仅要搬家还要面临职业方向的转变,从大学教授变成科研项目管理人员可能并不那么吸引人。但是,韦弗思考良久后决定跟随老师到纽约去,1932年正式就任洛克菲勒基金会自然科学部主任,从此开启了他不凡的科学探索、规划和管理生涯。这里要稍微介绍一下给韦弗提供充分施展其才华的洛克菲勒基金会。

洛克菲勒基金会正式成立于1913年,已经是一个百年老字号,也差不多是世界范围内慈善事业做得规模最大成果最多的私人基金会。这里简单列举几点我们可能比较熟知的成就:1,医学领域,洛克菲勒基金会建立了现代公共卫生领域,开发疫苗帮助根除黄热病和疟疾等疾病;2,农业领域,推动了20世纪第三世界国家农业生产技术改革的绿色革命;3,信息领域,资助了于1956年召开的标志人工智能起源的达特茅斯会议;4,在中国,资助建立了北京协和医学院及其附属北京协和医院。洛克菲勒基金会的伟大成就还有很多很多。有了这样的舞台,韦弗得以大展拳脚,尽情展现其对未来科学趋势把控和科研管理的才能。

向生物领域进军

洛克菲勒基金会的钱很多,理论上想资助什么就资助什么,那么资助方向就显得尤为重要。上任伊始,韦弗凭借其物理学背景以及对生物技术即将爆发的敏锐嗅觉,成功说服洛克菲勒基金会的董事会将资助重点从物理学转向生物学中的新兴领域(当然,这个过程应该也得到了总裁兼老师马森的大力支持)。方向只要对了,一切就会顺利。仅仅5-6年时间,这些新兴领域被资助的科研项目进展十分迅速,1938年韦弗在基金会自然科学年报中将这些生物学中新兴技术统称为分子生物学。由此,分子生物学的概念诞生了,从而开辟了一个崭新的生物、化学与物理交叉融合的学科方向。

现在,我们熟知的DNA研究以及新冠肺炎中的核酸检测都属于分子生物学领域。在韦弗的推动下,洛克菲勒基金会资助了这一领域的诸多研究者,其中很多学者若干年后都成为了具体学术方向的执牛耳者。举个例子,1954-1965年分子生物学相关领域洛克菲勒基金会资助的学者中有15位获得了诺贝尔奖(该领域一共18位),可以说韦弗的最大贡献之一就是极大地推动了20世纪全球生物学的发展。

为信息论做点贡献

在担任洛克菲勒基金会自然科学部主任期间,韦弗一直保留着他对应用数学(特别是概率和统计)的研究热情。其中,一个突出成就是1949年与克劳德·香侬(Claude Shannon)共同撰写了划时代意义的著作《通信的数学原理》。不过,香侬一直在贝尔实验室工作,实际上两人并没有交集,那么为什么会成为这部巨著的共同作者呢?其中的故事非常有趣。

1948年,香侬在贝尔系统科学杂志《Bell System Technical Journal》上发表了《通信的一个数学理论》(A Mathematical Theory of Communication),奠定了信息论和通信理论的基石。这样来看信息论的奠基性工作跟韦弗一点关系没有。但是,香侬著作中的数学描述比较晦涩难懂,而且阐述该理论仅适用于工程通信领域,因此该著作的受众很少。韦弗一直对信息论保持很高的兴趣,并且理解非常深刻,也有自己独到的见解,他于是采用通俗易懂的语言阐述并扩展了香侬的理论,并于1949年在《科学美国人》(Science American)杂志上发表了《通信中的数学》(The Mathematics of Communication)。时任美国伊利诺伊大学出版社主编的威尔伯·施拉姆教授(传播学之父)认为两者结合最完美,因此将韦弗和香侬的文章分别作为第一和第二部分重新修正编排,出版了划时代意义的《通信的数学原理》(The Mathematical Theory of Communication)著作(从低调的“通信的一个数学理论”直接修改成了霸气的“通信的数学原理”)。现在,“香侬-韦弗模式”已经成为通信和传播领域无人不知的基本理论,足见韦弗在信息论的发展和传播中扮演了何其重要的作用。

机器翻译概念的诞生

现在,让我们回归正题,探寻韦弗提出机器翻译概念的过程以及对后续机器翻译发展的影响。据韦弗本人回忆,整个过程源于他的一位杰出数学家朋友经历的真实故事。我们称这位数学家朋友为P,他之前是德国人,在土耳其伊斯坦布尔待过一段时间,并且学习过土耳其语。该故事发生于二战期间,由于战争的需要,那些年密码学的研究十分盛行。有一天,P的一位同事F声称想出了一个解密算法,于是请P设计一段密文,然后测试一下这个解密算法。P对密码学也十分感兴趣,鉴于F不懂土耳其语,P想为难一下F,于是用土耳其语写下包含100个词语的一段话,然后将土耳其语中的非英文字母替换为英文字母,最后经过稍微复杂点的替换等操作,生成了一段数字序列的密文。没想到F第二天就将解码结果呈现给P。虽然F声称没能成功解码出结果,只得到一串没有意义的英文字母组成的字符串序列(由于不懂土耳其语,所以认为没有意义),但是P稍加修改后就能还原土耳其语的信息。

这个故事深深触动了概率论和统计学背景的韦弗。本来韦弗就对语言翻译有点兴趣,这个在后面会提到。经过深入思考,韦弗认为不同语言中字母频率和组合方式等都具有相似的规律,因而可以通过利用这些特征进行语言的解密,也即语言的自动翻译。但是,利用什么工具进行自动翻译成为一个关键性问题。正好,1946年诞生了世界上第一台电子计算机ENIAC,受语言解密和计算机的启发,韦弗于1947年提出了机器翻译的思想,并与控制论之父诺伯特·维纳针对机器翻译的可行性进行了书信探讨。首先一个疑问是韦弗为什么要和维纳讨论呢?实际上,一方面韦弗主导洛克菲勒基金会资助了维纳,帮助其创立了控制论学科,彼此应该比较熟悉;另一方面,韦弗认为语言的自动翻译是一个复杂系统,而维纳是复杂系统研究的权威,讨论机器翻译非维纳不可。只不过,维纳和韦弗仅讨论了一个回合,并且认为机器翻译面临的假设空间太大、歧义性太强,基本不可行。韦弗非常失望,希望摆事实讲道理继续和维纳探讨,最终想说服维纳,可是然后就没有了然后。

韦弗深知要让机器翻译的概念被人们(当然也包括维纳)接受,就需要提出切实可行的设计方案和实现技术,证明其可行性。于是,韦弗经过两年的思考,并且在1948年与有类似想法的英国伦敦大学伯克贝克学院的布斯(Andrew D. Booth)进行了深入探讨,最终于1949年7月正式在《翻译》备忘录中提出机器翻译概念以及四种可能的实现策略。

第一种实现策略基于简单的词语替换方法,其核心是解决词义消岐问题。韦弗认为一种自然语言到另一种自然语言的自动转换面临的关键问题是不同语境中的词语多义现象。他提出的一个可行方案是用N个词语窗口的上下文信息来帮助预测中心词语的语义,并且认为N不需要太大。该思想在最初实现的基于直接转换的机器翻译方法中得到了应用。

第二种实现策略假设语言是一种逻辑表达。语言之间的自动转换就可以形式化为一种逻辑表达到另一种逻辑表达的自动推导。韦弗希望利用这个策略说明机器翻译是形式上可解决的。后来,基于规则的翻译方法和统计机器翻译中基于同步上下文无关文法的译文推导模型与该策略的基本思想可以说是一致的。

第三种实现策略假设语言间的自动翻译实际上可以看作通信过程,即一种输入信号(未知的目标语言文本,也可以称为密码学中的明文)经过信道输出另一种信号(可观察的源语言,密码学中的密文),翻译过程就是根据输出信号恢复输入信号的过程。作为信息论先驱的韦弗受到二战期间破译密码的启发,认为机器翻译实际上与密码破译问题十分类似,挖掘两种语言之间的统计模式就可以实现语言的自动转换。1990年左右统计机器翻译的兴起就是基于这个策略的基本思想。

第四种实现策略假设所有语言之间存在相同的逻辑特征,可以视为一种通用语言或者中间语言。韦弗认为源语言到目标语言的自动翻译可以首先将源语言转换为中间语言,然后再从中间语言转换为目标语言。后来,美国卡内基梅隆大学开发的JANUS机器翻译系统就采用了基于中间语言的翻译方法。不过,中间语言的定义和表示一直是一个未解难题。当前,基于统一编码器和解码器的多语言神经机器翻译框架本质上类似于基于中间语言的翻译思想。所有语言通过相同的编码器生成分布式的语义表示,然后解码器从分布式语义表示生成目标语言。

可以看出,上述第一种策略到第四种策略,想法越来越大胆,难度也越来越大。不过,从历史的发展来看基本上符合机器翻译方法的进阶过程,不得不佩服韦弗对未来科学发展的战略眼光。

机器翻译的概念诞生后,逐渐吸引了越来越的学者进入这个新兴研究领域。三年后,韦弗主导洛克菲勒基金会资助了1952年6月17-20日于麻省理工学院召开的第一届机器翻译会议,会议由另一位机器翻译先驱巴尔-希列尔(Yehoshua Bar-Hillel,大数学家、哲学家、罗辑学家和语言学家)组织,一共18位专家与会。后来的事情大家就比较熟悉了,例如1954年第一个机器翻译系统在纽约公开演示,1976年加拿大的天气预报机器翻译系统让人眼前一亮,1990年左右IBM的统计机器翻译模型诞生,推动了谷歌、微软和百度等在线翻译系统的开发,2014年之后深度学习给机器翻译带来了突破性进展。

退休后的生活

从1932年担任自然科学部主任到1959年退休,韦弗将其大半的职业生涯都贡献给了洛克菲勒基金会。退休后被邀请继续担任了5年斯隆基金会(Alfred P Sloan Foundation)的副总裁。退休后直至1978年去世的十几年,韦弗一方面利用更多时间陪伴家人,以另一方面开始将更多精力放在自己的兴趣上。从后续的著作来看,韦弗的兴趣主要集中于概率论和语言翻译。1963年,韦弗出版了一本科普专著《幸运女神:概率理论》(Lady Luck: The Theory of Probability),希望将概率理论介绍给更广泛的人群。

在语言翻译方面,韦弗并没有继续研究机器翻译方法,而是对文学作品的不同语言的翻译版本产生了兴趣。作为刘易斯·卡罗尔(Lewis Carroll)的超级粉丝,韦弗对《爱丽丝梦游仙境》不同语言的翻译版本特别感兴趣。1964年,韦弗出版了另一本专著《很多语言中的爱丽丝》(Alice in Many Tongues),在这部著作中他详细对比了40种不同语言的版本,希望传递给大家一个信息:将《爱丽丝梦游仙境》翻译为其他语言面临非常大的挑战。但是韦弗不可能懂40种语言,于是他采用了一种back-translation的方法,将其他语言回翻为英语,然后再对比不同的英语版本。Back-translation的概念对如今神经机器翻译的研究者来说太熟悉不过了,已经成为神经机器翻译领域的流行技术,也是各种机器翻译竞赛的必备技术。不过,back-translation的技术应用于神经机器翻译也只是在2016年被正式提出,没想到的是韦弗老爷子早在半个多世纪前就已经在利用back-translation的思想了,还能说什么呢,除了佩服还是佩服。

从韦弗的人生经历以及所取得的成就中我们至少可以得到两点启示。首先,兴趣是成功的关键因素。其次,对趋势和方向的把控和选择不仅决定个人的成就,也将对国家和全球的技术发展起到至关重要的作用。

参考文献

Warren Weaver. 1955. Translation. Machine Translation of Languages, 14:15-23, 1955.

Weaver, Warren. 1964. Alice in Many Tongues: The Translations of “Alice in Wonderland.” Madison: University of Wisconsin Press.

Warren Weaver. National Academy of Sciences. 1987. Biographical Memoirs: V.57. Washington, DC: The National Academies Press.

Lily E. Kay. 1996. The Molecular Vision of Life: Caltech, the Rockefeller Foundation, and the Rise of the New Biology, Oxford University Press, Reprint 1996.

John Hutchins.1998. Milestones in machine translation. Language Today, no. 13. 1998. pp. 12-13.


推荐阅读

这个NLP工具,玩得根本停不下来

完结撒花!李宏毅老师深度学习与人类语言处理课程视频及课件(附下载)

从数据到模型,你可能需要1篇详实的pytorch踩坑指南

如何让Bert在finetune小数据集时更“稳”一点

模型压缩实践系列之——bert-of-theseus,一个非常亲民的bert压缩方法

征稿启示| 200元稿费+5000DBC(价值20个小时GPU算力)

文本自动摘要任务的“不完全”心得总结番外篇——submodular函数优化

Node2Vec 论文+代码笔记

模型压缩实践收尾篇——模型蒸馏以及其他一些技巧实践小结

中文命名实体识别工具(NER)哪家强?

学自然语言处理,其实更应该学好英语

斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。


阅读至此了,分享、点赞、在看三选一吧🙏

登录查看更多
0

相关内容

机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
最新《生成式对抗网络数学导论》,30页pdf
专知会员服务
77+阅读 · 2020年9月3日
清华大学《人工智能》书籍教学课件开放下载
专知会员服务
138+阅读 · 2020年7月27日
【纽约大学】最新《离散数学》笔记,451页pdf
专知会员服务
128+阅读 · 2020年5月26日
机器翻译深度学习最新综述
专知会员服务
98+阅读 · 2020年2月20日
阅读理解中的推理和符号机制[吕正东]CCKS ATT 16-2019
专知会员服务
16+阅读 · 2019年10月25日
知识图谱从哪里来:实体关系抽取的现状与未来
PaperWeekly
6+阅读 · 2019年11月23日
95岁的查理·芒格,一周读二十本书
三联生活周刊
7+阅读 · 2019年5月22日
论机器翻译之浅薄
AI100
3+阅读 · 2018年4月7日
知识图谱火了,但你知道它的发展历史吗?
图灵教育
5+阅读 · 2018年3月12日
知识图谱火了,但你知道它的发展历史吗?|赠书5本
人工智能学家
6+阅读 · 2018年1月5日
【GAN】生成式对抗网络GAN的研究进展与展望
产业智能官
12+阅读 · 2017年8月31日
Graph Transformer for Graph-to-Sequence Learning
Arxiv
4+阅读 · 2019年11月30日
Arxiv
3+阅读 · 2018年11月13日
Arxiv
136+阅读 · 2018年10月8日
Bidirectional Attention for SQL Generation
Arxiv
4+阅读 · 2018年6月21日
Arxiv
5+阅读 · 2018年5月1日
VIP会员
相关VIP内容
最新《生成式对抗网络数学导论》,30页pdf
专知会员服务
77+阅读 · 2020年9月3日
清华大学《人工智能》书籍教学课件开放下载
专知会员服务
138+阅读 · 2020年7月27日
【纽约大学】最新《离散数学》笔记,451页pdf
专知会员服务
128+阅读 · 2020年5月26日
机器翻译深度学习最新综述
专知会员服务
98+阅读 · 2020年2月20日
阅读理解中的推理和符号机制[吕正东]CCKS ATT 16-2019
专知会员服务
16+阅读 · 2019年10月25日
相关资讯
知识图谱从哪里来:实体关系抽取的现状与未来
PaperWeekly
6+阅读 · 2019年11月23日
95岁的查理·芒格,一周读二十本书
三联生活周刊
7+阅读 · 2019年5月22日
论机器翻译之浅薄
AI100
3+阅读 · 2018年4月7日
知识图谱火了,但你知道它的发展历史吗?
图灵教育
5+阅读 · 2018年3月12日
知识图谱火了,但你知道它的发展历史吗?|赠书5本
人工智能学家
6+阅读 · 2018年1月5日
【GAN】生成式对抗网络GAN的研究进展与展望
产业智能官
12+阅读 · 2017年8月31日
Top
微信扫码咨询专知VIP会员