前沿 | 剧本自动生成电影：杜克大学提出AI视频生成新方法

2018 年 2 月 24 日 机器之心

选自Science

作者：Matthew Hutson

机器之心编译

参与：许迪、李泽南

用写好的剧本（文字）自动生成电影或许是很多剧作家的梦想，人工智能技术最近让这一梦想距离现实更近了一步。杜克大学 Yitong Li 等人提出了一种结合变分自编码器（VAE）与生成对抗网络（GAN）的算法，可为一小段文本生成相应短视频，该研究已在 AAAI 2018 大会上进行了展示。

编剧们最近又有新的理由拒绝高成本和重要电影厂牌的众多资源了，这得归功于一个新的人工智能算法，它可以消化很短的剧本然后产生一段视频。尽管这些新的电影距离奥斯卡获奖的程度还相去甚远，但我们已经可以想象一种类似的技术将在未来的某一天在娱乐圈以外的地方找到用处，比如帮助目击证人重现一个撞车或者犯罪现场。

人工智能在识别及标注图片这一领域已经显得驾轻就熟。所谓的「生成」算法走了另一条路，用标签（或者脑部扫描）来生产新的图片。少部分的研究甚至可以用一帧电影画面来预测之后一系列的画面帧。但是把这些结合在一起，从文字创建一个图片然后让它动起来从而变成一个实际的电影，此前还从来没人做到过。

「目前为止据我而知，这是第一个有好结果的文本-转-视频的工作。它们不是完美的，但至少它们看起来已经像真的电影了。」Tinne Tuytelaars 说道，他是一位在比利时 Katholieke Universiteit Leuven 的计算机科学家，她已经做过两个视频预测的研究。「这真的做的很棒」。

这个新的算法是机器学习的一种形式，这意味着它需要训练。尤其是，这是一个神经网络，或者是一系列像老式大脑神经元一样的小计算元素形成的层。在训练中，软件评估了它每次尝试的表现，然后反馈在几百万个网络连接里循环来改善之后的计算。

这个网络的工作方式为两个阶段「以模仿人类创造艺术的方式」，研究员说。第一阶段是用文本生成一个视频的「主旨」，基本上是一个模糊的背景图片加上一团模糊的标注，标记主要动作发生的地方。第二阶段用「主旨」和文本生产一个短视频。在训练中，第二个网络表现为「鉴别器」。它观察新生成的视频，例如，在一个海上帆船视频的旁边写道「在大海上航行」，鉴别器会被训练来找出符合叙述内容的图像。随着鉴别器的性能越来越好，它会变得更加苛刻，它的反馈也为生成器网络设置了一个新的更高的标准。

研究员在十种场景中训练了这个算法，包括「在草地上打高尔夫球」，和「在海上玩风筝冲浪」，算法在这个场景下表现的比较粗糙，呈现 VHS 录像的颗粒感画面。一种简单的分类算法可以在 6 种选项里猜对大约 50% 的几率。（但总把风筝冲浪和航行弄混）。更多的，这个网络可以为荒唐的场景生产视频，比如「在雪上航行」和「在游泳池上打高尔夫」，该研究团队本月在路易斯安纳州新奥尔良的 AAAI 2018 大会上对这项研究进行了报告。

「他们的方法非常有意思，融合了两个阶段」，Hamed Pirsiavash 说，他是马里兰大学的一位计算机科学家，此前也完成过视频预测工作。「这是个超级困难的工作。所以我也非常高兴能看到这些人做出了这么好的成果。」

现在，算法完成的视频只有 32 帧大约 1 秒大小像邮票一样，64×64 像素的尺寸。更大的分辨率会降低正确率，杜克大学的计算机科学家 Yitong Li 表示，他也是这篇文章的第一作者。因为人们经常在图像里被扭曲，他希望在未来使用人体骨骼模型来提高动作的效果。

Tuytelaars 也在好莱坞以外的其他领域看到了新方法应用的方向，视频生成技术也导向更好的视频压缩技术，可以只存简介而不存视频。它也可以从其他机器学习算法中生成训练数据。举例，真实的视频短片可能帮助自动驾驶车为不常见的危险情况而准备。深度理解了视觉世界的程序可以从审查到监控中筛选出有用的应用。「新技术可以帮助自动驾驶车预测一个摩托车将开向哪里，或者训练家庭服务机器人打开冰箱，」Pirsiavash 说道。

目前看来，让 AI 生成好莱坞大片还不现实，但同时，我们终于知道「在草地上玩风筝冲浪」是什么样子了。

论文：Video Generation from Text

论文链接：http://www.aaai.org/GuideBook2018/16152-72279-GB.pdf

摘要：从已有生成模型中用文本生成视频是一个困难的技术挑战。我们训练了一个有条件的提取动态和静态信息的生成模型来处理这个问题。这种思路在混合框架下被证明可行的，我们的模型应用了变分自编码器（VAE）和生成对抗网络（GAN）。动态特征，被叫做「主旨」，常被用来画出语境的背景颜色和物体构造结构。动态特征可用于将输入文本转换为图片过滤器。为了得到大量的模型训练数据，我们在公开的在线视频之上发展了一个方法来自动创建对应的文字--视频语料库。实验结果表明，我们提出的架构可以生成具有一定拟真度的多种平滑短视频，文本中的信息可以正确地在视频中显现。这种方法比直接使用文本转图片再生成视频的基线模型在表现上好很多。我们通过视觉观察和用于评估 GAN 生成图片的评分来对生成视频的效果进行了评估。