选自MotherBoard
作者:Jon Christian
乌镇智库编译
用过谷歌翻译的人都知道,翻译出来的结果本来就是不管中国人和外国人都听不懂。不过如果你在谷歌翻译里连续输入19次“dog”,选择从毛利语翻译成英语,会弹出一段乱码式的“神谕”。
图片|来自谷歌翻译
“世界末日时钟将在十二点零三分时敲响,我们在这世界上所经历之种种,正预示着末日和耶稣基督的归来审判愈发临近。”(《圣经》马太福音第24章第7节描述世界末日的前兆:“民要攻打民,国要攻打国,多处必有饥荒、地震”)
当然没人迷惑我,也没人迷惑谷歌翻译,这只是Reddit和其他社交论坛上的用户发现众多谷歌翻译出的奇奇怪怪又时而掺杂不祥厄运的只言片语。例如,在选择索马里语翻译英语时,“ag”这个字符串会被翻译成“Gershon的儿子”,还会出现“name of the LORD”(以耶和华之名)和一些圣经术语,诸如“cubits”(肘尺,圣经中的计量单位,自肘至中指段)或“Deuteronomy”(申命记,圣经旧约中的一卷)。
谷歌搜索八年前退出中国,谷歌翻译去年悄咪咪的回归大陆,这个运营超过十年的产品如今已经支持超过100种语言。
图片|来自谷歌翻译
不少人在推特上说,这都是幽灵和恶魔作祟。一个叫“翻译门”的子版块上有一个用户推测,这些奇怪翻译可能是提取了我们邮件或私密文档中的一些文本信息。
谷歌发言人贾斯汀·伯尔(Justin Burr)在一封电子邮件中说:这种言论纯粹是无稽之谈甚至有些阴谋论,谷歌翻译的机器学习算法只从网上翻译的例子中学习,不使用个人的隐私信息,系统也没有权限访问这些内容,这些只是无意义的输入产生的无意义输出罢了。
谷歌翻译的神奇输出有几种可能性,有可能是来自一些心怀怨念的谷歌员工的报复,或者是恶作剧用户滥用“建议编辑”(suggest an edit)按钮,这个按钮的作用是如果用户对提交的文本有更好的翻译,可以向谷歌翻译提供建议。
图片|谷歌翻译神经网络训练
来自谷歌在iResearch发布的文章
哈佛大学助理教授,研究NLP和计算机翻译的安德鲁·拉什(Andrew Rush)认为,内部的质量filters可能会捕捉到这种操作,更有可能的是,这些奇奇怪怪的翻译跟谷歌翻译近几年启用“神经网络机器翻译”(neural machine translation)技术有关。
拉什说,在这项技术中,系统被一种语言的大量文本信息训练,翻译成对应的另一种语言,但是如果输入无意义时,系统会被允许输出“幻觉式”的胡言乱语。跟大多数的训练实例相同,模型就是一个黑盒子,它被训练的结果就是要不惜一切代价地输出看起来更像人类语言的东西,但是如果你输入一些你自己也看不懂的火星文,产出的最佳翻译依然是看上去流利的文字,但是跟输入内容八竿子也打不着边。
BBN科技公司(BBN Technology)的高级科学家肖恩·科尔巴斯(Sean Colbath),多年来从事机器翻译工作,他也认为这些奇怪的输出是谷歌翻译的算法试图在混乱的输入文本中寻找规律,同时他还指出,产生奇怪翻译的索马里语、毛利语、夏威夷语等,文本数据量比英语或者中文这些使用广泛的语言少太多,所以谷歌翻译可能会使用圣经这样被翻译成多种语言的宗教出版物作为语言训练模型,所以才产生了宗教内容。
拉什也同意肖恩的观点,如果谷歌使用了圣经作为文本训练模型,可以解释那些“神谕”一般的奇怪翻译。事实上,索马里语里的“神翻译”里类似旧约里的段落,出埃及记第27章第18节提到了“100肘尺”(a hundred cubits),民数记第3章第18节也提到了“Gershon的儿子”(the sons of Gershon)。
谷歌发言人伯尔则孤零零的拒绝透露谷歌翻译的培训材料是否包括宗教文本。
图片|来自谷歌翻译
尽管看起来像开玩笑,算法好像是指引着一道不可思议的光,教你宁可失去百体中的一体,不叫全身丢在地狱。
毕竟谷歌翻译用索马里语解释了“w hy ar e th e tran stla tions so wei rd”(为毛这翻译这么奇怪):
“It is a great way to make it so much better”
独家|亲历IJCAI2018,为什么北京大学SentiGAN能获杰出论文?
华裔女性钱璐璐:用DNA开发人工智能神经网络,识别手写数字!
推荐阅读
比人工智能威胁更可怕的是,那些曾被你抛弃的互联网软件
尼克谈人工智能的历史、现实与未来