那些竞相将DeepFakes商业化的AI初创公司

2019 年 5 月 4 日 AI前线

作者｜Mark Wilson

译者｜Sambodhi

编辑｜Debra

本文最初发布于 FastCompany 官方博客，经原作者授权由 InfoQ 中文站翻译并分享。

AI 前线导读：所有的这一切都源于 2018 年初 Reddit 上的匿名用户 Deepfakes 。这位匿名用户利用自家的电脑和开源的人工智能工具，鼓捣出了人工智能“变脸术”，使得原本难度最高的视频造假和声音造假变得门槛较低。

最初，Deepfakes 的危害在于色情领域的滥用，但它更大的危害，目前在一片欢声笑语和淫秽视频中还没有显现出来，就是它可以篡改视频证据。视频、照片甚至声音都已经不能算作真实的依据了。一些社交媒体疯狂的世界，人们无法识别什么是假新闻。2016 年，欧洲刑警组织发布的《网络有组织犯罪威胁评估报告》中，就已经点名了 Deepfakes 犯罪将会成为趋势。

现在，已经出现了 Deepfakes 2.0 的概念，就是不止换脸，还能模仿某个人的行为、声音、习惯、动作等，要是真的实现了，那换脸视频和真人视频就根本无法区分了。鉴于 Deepfakes 给社会带来的危害极大，挑战法律和道德底线，最终引起了各国政府的重视。但凡技术都有利弊两方面，Deepfakes 究竟是造福人类呢，还是一个诅咒呢？目前，我们并不知道答案。不过，有一大波初创公司却打算靠引起众怒的 Deepfakes 技术盈利，这究竟是怎么回事呢？他们能扼守住人类道德底线吗？让我们一探究竟。

更多干货内容请关注微信公众号“AI 前线”（ID：ai-front）

一年多以前，有位名叫“Deepfakes”的匿名 Reddit 用户改变了互联网。

2018 年初，他们上传了一个机器学习模型，可以在任何视频中将一个人的脸换成另一张脸。结果短短几周之内，网上就到处充斥着换上名人脸的粗劣色情片。Reddit 很快就封杀了 Deepfakes，但为时已晚，这种技术已经在网络上扎根，有时候制作出来的质量好到令人莫辨楮叶。每天都有人声称，他们还可以做得更好，比如将 Leia 公主的脸添加到《原力觉醒》（《The Force Awakens》），丝毫不输于好莱坞特效工作室光影魔幻工业（Industrial Light and Magic）。Deepfakes 的横空出世，让任何人都有机会掌握复杂的机器学习：只需要花时间收集某个人足够多的照片就可以训练模型了。而你需要做的就是，将这些收集来的图像拖到一个文件夹中，这套工具就从这个文件夹生成伪造的作品，看上去以假乱真。正如影视特效界的大佬去年跟我所描述的那样，这位匿名用户引发了“一场关于眼见为实的挑战”。

AI 前线注：2018 年 1 月 31 日，我们曾翻译过《宅男福音：Deepfakes 开源了》。

现在，一年过去了，事实证明，Deepfakes 是有先见之明的。新一波的公司正在寻求利用类似的技术来盈利：使用机器学习在媒体上做一些前所未有的事情——从伪造声音，到伪造头像，再到伪造高度细节化的照片。我和其中三家公司进行了交流，他们都在致力于开发商业应用程序。除了为他们的软件找出可持续的商业模式之外，这些公司都必须考虑到这项新兴技术的力量，以及如何保护社会免受他们自己工具的影响，而不是去颠覆它。

来自 Topaz Labs 网站的 Gigapixel AI 增强质量演示截图

伪造细节

十多年来，Eric 和 Albert Yang 这对父子俩经营者一家虽小但很成功的软件公司，名为 Topaz Labs，这家公司开发了各种独立的图像编辑工具，还为 Adobe After Effects 等软件开发插件。他们花了数年的时间来开发算法，聘请了图像增强博士研究人员进行艰苦的、高度专业化的工作来开发软件——可以从视频中提取异常清晰的图像，或者为动态影像添加电气辉光。

然后，他们就赶上一场机器学习革命。突然之间，他们可以训练神经网络来完成锐化图像的艰苦工作了：“我们最大的惊喜之一就是，我们可以立即抛弃十年来的辛苦工作了！”于是乎，在过去的一年里，这家工作室利用机器学习进行了几乎全部的重建。Eric 对此说道：“这几乎可以说是又缔造了一家新的初创公司呀。”

这家公司新推出的人工智能软件套件大受欢迎，预计今年收入将增长 50%。这套软件的功能，支持从图像降噪，到简单的将 JPEG 转换为高度可编辑的 RAW 图像等一切操作。它的主要功能是 Gigapixel AI。它可以让你拍摄一张分辨率非常低的图像，并将它放大 600%。原始图像中的每个像素都通过 200 万个独立的过程进行分析和优化，使得一张 iPhone 照片变为 80 英寸的打印件，这要归功于人工智能，它已经在数万张图像上进行了训练，能够理解在大多数照片中，各个像素周围通常应该是怎样的。它工作得如此之好，以至于 Topaz Labz 面临的最大挑战之一是，说服客户相信其网站上的示例是真实的。

Gigapixel AI 非常擅长增强风光风景，也正源于此，它实际上并不擅长在照片中添加人们的细节，因为它“不知道”一张脸应该是什么样子的。尽管如此，如果这款软件能够创建令人信服的伪造图像，那么这款软件就有可能会在其他方面被滥用，Topaz 深知这一点。警方已经实施了一款较旧的、非人工智能的软件，用来增强车辆牌照，以更好地识别并开具交通罚单。由于该公司的人工智能软件实际上产生了新的像素，他们承认理论上，人工智能有可能猜测出“错误的”像素，如果警方曾以这样的方式使用过的话，那么车辆牌照就有可能会出现不正确的数字或字母。

“正如你所知，机器学习并不了解真正的细节。而它重现了细节，很显然是有问题的。”Albert 说，“随着技术的进步，我们必须更多地考虑它。目前的数据还没有达到我们非常担心的地步，我们很担心，因为是软件伪造了这个号码，会不会有人从错误的车辆牌照被误认出来。”但这情况却有可能会发生。

因此就目前而言，Topaz 正试图向摄影师推销他们的技术，并向其他人（如当局）提供有关其局限性的建议，控制软件的使用。Albert 补充道，“我们现在尚未进入安全执法领域。”

截图：Modulate AI

伪造声音

Mike Pappas 走在麻省理工学院宿舍的走廊里，碰到一个人正在他的房间里的白板前写写画画。他就是 Carter Huffman，物理学本科生，未来的 Modulate 的 CTO。成立于 2018 年，由 Harmonix 创始人（听说过《吉他英雄》吗？）等音频创新者出资 200 万美元的资金，除了语音，Modulate 所做的事情与 Deepfakes 类似：它能让你的声音转换成任何他人的声音。Modulate 在网站上提供了一个令人信服的 demo，该 demo 展示的是美国前总统奥巴马自己正在“推销”该软件，让人感到有点错乱。

Modulate 的想法诞生于 2015 年左右。Huffman 遇到了一种叫做“风格迁移”的新事物，它可以将一件艺术品的风格应用到另一件艺术品上，例如让一张照片看起来像是梵高的画作。在训练机器生成令人信服的伪造品方面，你可以将风格迁移视为 Deepfakes 的近亲。“Carter 当时正在阅读，他萌生出一个想法，他想，是不是可以将音频保存为图像、频谱图，并想知道如果我们尝试在这个音频上进行图像风格迁移会怎么样。”Pappas 回忆道，“他做了实验，立即得到的结果是，它听上去完全就像个垃圾。”

但是，经过三年来的修修补补，Modulate 已经变得相当不错了。该软件的工作原理是在许多人的声音样本上进行训练模型。这意味着，曾连续录制数小时录音视频的公众人物，更容易成为模仿的目标。理论上讲，你可以利用 Modulate 内部的技术，构建政治家、名人或任何花很多时间来说话的人的模型，然后让计算机随时用他们的声音来说话。

但是，Pappas 对 Modulate 用于模仿政客或名人说话并不感兴趣。“奥巴马的声音之所以会出现在我们的网站上，是因为我们认为，演示我们如何匹配一个人或一个角色非常重要，恰好奥巴马有很多公开音频可用，所以做到这点还是很容易的。”Pappas 说，“有些人也许会说，听起来像奥巴马在说话，好酷啊——也许就一两分钟的热度。”所以，“奥巴马滤镜”实际上并不可用。

相反，Modulate 想将它的技术授权给社交媒体和游戏公司，让用户在这些平台上拥有一个很酷的音频化身，但除了这个途径之外，似乎没有别的用途了。这个声音并不会训练成听起来像你的声音一样，而是被开发人员训练成听起来像一个角色，所以它会受到相对严格的控制。在暴雪娱乐公司的《守望先锋》（《Overwatch》）这样的游戏中，当你可以用一个真人配音演员的声音说话时，为什么听起来像是青春期前的孩子在说话？

“最有意义的即时应用是为上网的消费者设计他们的在线角色。他们会为自己的角色花钱买新的皮肤，但一旦他们使用语音聊天……就打破了自己制造的幻觉，因为他们必须用自己的声音。”Papps 说，“得给他们这样的自由，能让他们完全进入自己的角色。”

话虽如此，但 Papps 并不否认，Modulate 可以融入名人的声音。他指出，《堡垒之夜》（《Fortnite》）游戏制作方最近购买了国家美式橄榄球联盟的视觉皮肤，也许有些球员也想为这款电子游戏贡献自己的声音。但是，Modulate 已经考虑过如何在这方面尽早打击欺诈行为。它在所有录音中都包含了一个音频指纹，虽然人耳听不出来，但在观察音频的波形本身时很容易发现。但这样的指纹还不足以阻止假新闻的病毒式传播。但它至少可以用来反驳某位名人说过一些有争议的话。

尽管如此，这仍然是一项不完善的安全措施，也是这家公司持续关注的焦点。“哪里都有非常厉害的音频工程师，也许有一天，他们就能够编辑这些水印了。”Papps 说道，“这就是为什么我们的部分工作，是寻找新的方法来使水印更加深入音频本身。因此，我们正在进行新的机器学习研究，看看怎么使水印更加具备健壮性。”

图片来源：Unsplash

伪造形象

Misha Leybovich 一直梦想成为一名宇航员。他将前往加州大学伯克利分校攻读工程学本科学位，然后前往麻省理工学院攻读技术政策和航空航天工程硕士学位。他开玩笑地说，从来就没有人告诉过他，大多数成年人实际上从未当过过宇航员，相反，他在 McKinsey 咨询公司工作，但很快就辞职出来单干，只是为了渴望创建自己的初创公司。

他的平台 Meo 已酝酿三年。Meo 的诀窍在于，它可以拍摄某人脸部的 2D 视频，并将其转换为 3D 头像。这个头像可以是龙，也可以是小猫，但它能够传达你的情感状态：你独特的细微表情，如微妙的微笑或皱眉，而这些 iPhone 的动话表情（animoji）却做不到。

Leybovich 设想 Meo 最终会让你从游戏到社交网络，再到美容应用程序的任何事情上，都可以深度伪造自己。通过拍摄成千上万的、甚至数百万张你的照片，Meo 可以让你看起来像是在突袭你朋友的城堡，也可以帮助你看到新眼线画在你脸上是什么样子的。“说到底，一旦你创建了一个 3D 模型，你就可以用它做任何事情。”Leybovich 说。

Leybovich 承认，任何人都可能会滥用这个系统，不用自己的脸而是用他人的脸来创建一个 3D 模型。“最终你将能够假冒名人或其他任何人，”他说，也许你可以将手机指向 Twitch 游戏软件影音串流平台中的一段游戏视频，并根据这段视频来创建一个虚拟人物。或者，也许你不喜欢去做这么严重的伪造。也许你只是撒了一点谎，用理论上的 Instagram 滤镜来调整你的外貌：增加一些肌肉，让肤色看上去更养眼，或者调整你的年龄和性别。Leybovich 承认，人们认为视频在本质上来说是可信的，因此存在被滥用的可能性。成年人可能会像小孩一样令人信服地摆姿势，嫉妒的前任可能会伪装成新的追求者。

“我认为，任何一家好的技术公司都希望他们的工作，是为了善而不是恶。”Leybovich 说，“我们正在努力超前思考，为我们的技术建立安全保障。”

对 Meo 来说，这种保护措施可能非常出色，并且有望成为其他服务效仿的典范。在开发人员必须用来合并 Meo 的 SDK 中，该公司包括了他们所谓的真实分数和实况分数。真实分数描述了你从核心脸部形状改变了多少模型。把你的鼻子缩小一点，也许你的真实分数是 85%。将自己变成一个 80 岁的小精灵，也许你的真实分数是 25%。实况分数则描述了 Meo 如何确定你的虚拟形象有多少来自你真实面孔，而不是预先录制的东西。如何将这些分数合并到自己的应用程序中，由开发人员决定，但似乎这些分数可以直接发布到某人的个人资料页面上，只需点击几下鼠标即可快速核实。

“它应该是透明的，”Leybovich 说。“我们能让这个行业采用真实分数和实况分数吗？不，我们只是一家公司，并非监管机构。但考虑到我们现在处于行业领导地位，如果我们能够取得成功，并且我们为此鼓足勇气，希望我们能够制定一个标准，也许会让其他人为也这么做而感到羞耻。”

当 Deepfakes 利用公开可用的研究成果创建了自由软件时，引发了媒体操纵的革命。关于机器学习如何冒充身份的知识已经存在，他们只不过是将它制作成一个可辨识的应用程序而已。但这些新公司却证明了，将类似的媒体操纵技术进行商业化，或者使用成千上万张照片或音频文件去训练机器来模仿一个人或一个地点，也可以带来一些实际的好处。想要使用人工智能来操纵图像、视频和语音的公司，将比任意 Redditor（至少在理论上）接受更高的标准。如果没有其他情况，这些公司知道他们必须盈利。要做到这一点，他们需要保持自己的研究专利，并限制最明显的开发利用途径。

“部分原因是想成为一名好公民，我相信这也是出于私心，”Leybovich 说，“不管怎么说，我肯定 Facebook 不希望被议会召去质问。这对商业或社会都不利。这不仅仅是为了做正确的事，但最终，如果人们滥用你的东西，你的企业就会出问题。最好要设法预防这种情况的发生。”

原文链接：

https://www.fastcompany.com/90337767/deepfakes-started-a-war-on-whats-real-these-startups-are-racing-to-commercialize-it