会员服务 ·

漫画拖更将成历史？首部AI图文小说问世：一小时画一页

2022 年 8 月 30 日 新智元

新智元报道

编辑：LRS

【新智元导读】不会画画也能当艺术家！用心讲故事，让AI做你的画手！

去年11月首播的《英雄联盟：双城之战》让各位老召唤师直呼爷青回，主题曲《孤勇者》也成了小学生的新暗号。

《双城之战》由中、美、法三国开发制作，内容包含7000多个镜头和上万个手绘原画，但制作耗费了六年时间，小学生都等成了大学生。

随着DALL-E 2等图像生成神器的上线，设计师或许不必再从头开始绘制，只需要在草稿上进行修改即可。

更重要的是，要是你也想通过漫画讲述「自己的故事」，即便完全不懂绘画，你也能圆梦！

最近在Midjourney官方的Discord服务器上，网友KrisKashtanova发布了几页用Midjourney（类似于DALL-E 2的程序）制作的漫画小说Zarya of the Dawn，瞬间引发了激烈的讨论，很快就登上了AI项目的热榜。

云盘地址：https://drive.google.com/drive/folders/1bm8xHxYKlrYDd8BGa5tbu9esg8CLwN5Y

引起热议的原因并非是内容精彩（毕竟只有17页），而是作者提供了一种全新的方式来利用基于文本的图像生成模型，让每个人都有用图文讲述自己故事的机会！Zarya of the Dawn也是首部AI生成的图文小说（graphic novel）。

而且作者还解决了诸多生成上的技术问题，例如主人公的一致性问题等。

作者Kristina Kashtanova出生和成长于俄罗斯北高加索地区，在纽约居住。她拥有软件工程背景，在计算机图形领域拥有十年工作经验。离开软件行业后，成为了一名记者和专业摄影师。目前从事用户体验和运动设计相关的工作。

用AI讲图文故事

Kristina在学习使用Cinema4D 开发3D时萌生了一个想法，即通过图像来讲述故事，内容是关于一个人访问不同的世界来理解她的情绪和感受。

从2021年开始，Kristina陆陆续续做了一些内容，但这件事非常耗时，并且对于新手来说也很难。由于空闲时间非常有限，所以进展很慢。

直到AI加入战场，Kristina只需要1个小时就能完成一整页的图文小说，再使用Comic Life 3为图片添加文本和分格即可，在工作日的下班时间也能轻松完成，整个过程「轻松加愉快」。

Kristina选择了一个关于始于纽约市未来的不同世界的故事，因为作者住在纽约，她觉得用科幻来想象身边的地点很有趣。

在Zarya of the Dawn发布的10天里，大约有1000个人受到启发，开始利用Midjouney创建自己的故事。

不过一个关键问题是，基于文本来生成图像的人物形象在不同的生成中可能会有所变化，要是主人公的形象换来换去的，那读者难免理不清头绪。

刚开始Kristina选择用名人的名字作为提示文本，这也是最简单的方法，作者选用的公众人物为美国女演员Zendaya，但这种行为实际上已经违反了AI道德准则，在未经授权的情况下生成人脸，所以Kristina只能放弃这个方案。

第二种方法则是使用MetaHuman自己捏脸，并把该形象传入到Midjourney

小说中的第一个自设计主角为Kristina的祖母Raya，作者也是用这种方式表达怀念。

Kristina将MetaHuman的截图喂给MidJourney，并生成不同表情的彩色铅笔草图。MJ在处理表情方面做的不是特别好，但MetaHuman可以生成一个有表情的角色作为源图像。

目前Midjourney仍然有一些限制，比如不能很好地处理画面中的多人场景或指定人物的动作，这对小说创作来说是很必要的。虽然有一些方法可以绕过该机制，但并不能保证一定成功，而且会花费很多时间。

这也是AI绘制漫画下一步要解决的主要问题。

Midjouney还有一个历史功能，可以根据想象和使用的词，然后以某种相同方式产生图像，这也是为什么漫画中的环境和风格是一致的。

当然，Kristina肯定不是唯一想出这个主意的人，Elvis Deane也是Midjourney用户，正在创作他的第一部图文小说。

Elvis 有20多年的漫画创作经验，但还是被AI创作漫画的能力给惊艳到了，直接开通了MidJourney的会员继续生成图像。

在解决主角一致性上，Elvis同样使用知名演员来友情客串。

整个过程十分顺利，仅花费几个小时生成了几百张图像后，就获得了一个完整的故事，Elvis自述：这是我一生中最令人惊奇的创作时光之一。用AI创作真是太舒服了。

在接下来的两周时间里，Elvis慢慢开始生成更多图像并进行测试，他认为整个创作过程更像是「即兴表演」，AI模型会对你提的任何要求返回一个结果，然后你再根据这个结果进行反馈，不断修正，直到图像达到满意的效果，只不过AI并不能完全理解人类的语言。

比如你说，「我希望这个角色出现在书架前的书店里」，生成的图像有时候主角的头会在书架上，有时她的头会漂浮在某个地方，有时两个头会出现在同一个镜头里，尽管提示文本已经描述得很清晰了，但生成结果完全是不可预测的，大概率也不是你想要的。

更困难的是指定角色的行为，比如说某个角色被杀了，或者主角从反派手中逃走，MidJourney几乎不可能返回结果；再比如输入「跑步」命令时，角色的一条腿可能会离开地面，但更多的情况是站在原地；最最困难的是「躲避」动作，不论作者如何尝试，总是得不到想要的结果。

总的来说，Elvis对短时间内创作的漫画小说还算满意，在goats发布到reddit上后，网友的反应也都是惊叹。不过也有一位网友表达了悲观情绪：作为刚入行的漫画书作家，我想知道自己未来是不是要失业了？

在AI图像生成器的讨论中，另一个重要问题就是版权。根据 Midjourney 的服务协议，输入prompt的人享有生成图像的版权，但对于prompt版权的归属却没有定论。

毕竟掌握了prompt的人，也就掌握了图像，尤其是现在已经有交易软件开始贩卖文本prompt。

再比如，Elvis使用知名演员作为主角是否会影响到版权？

虽然目前主流艺术界对于使用AI工具生成漫画的态度都是「你做得不错，但你不是艺术家」。

毋庸置疑，图像生成很好用，但也要警惕：艺术家的核心是思想和创造力，否则工具反而会限制作品的表现力。

新赛道已开

8月16日，亚马逊上架了一本特别的童书，售价8.99美元，特别之处在于所有内容都是由AI生成的。

免费电子书：https://drive.google.com/file/d/1ho-pAC_U_TVPLYn_FoPFEJVJHXhsubEe/view

书的图片通过DALL-E制作，内容为经典的敲门笑话，帮助儿童学习各种蔬菜的单词。

敲门笑话的笑点通常为双关语，由两人对答组成，例如

甲：Knock, knock!（敲门，咚咚咚！）

乙：Who's there?（何人？）

甲：Doctor.（博士）

乙：Doctor Who?（哪个博士？/ 何博士？）

甲：How did you know?!（你怎么知道？！）

该书目前已经收获了三个五星好评（不知道是否为亲戚朋友），都表示「小孩子很爱这些笑话」，内容很有意思。

不过这本书的篇幅不长，只包含六个变化的场景，作者表示生成不断变化的场景、对内容进行替换、DALL-E的语义理解上仍然存在缺陷。

参考资料：

https://robotspaint.com/the-first-ai-generated-graphic-novels-are-here-2545/

登录查看更多

相关内容

关注 7066

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文，这些论文构成了整个领域的进步，也欢迎介绍人工智能应用的论文，但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能，而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案，强调其新颖性，并对正在开发的人工智能技术进行深入的评估。官网地址：http://dblp.uni-trier.de/db/journals/ai/

图文理解矩阵与线代！《矩阵世界与线性代数艺术》可视化手册，14页pdf，Kenji Hiranabe编著，Lecun点赞！

专知会员服务

150+阅读 · 2022年8月11日

斯坦福大学首个Transformers专题讲座视频放出，NLP、CV和RL无所不包

专知会员服务

47+阅读 · 2022年7月12日

绝了！高颜值妹子3年写了一本1200页的AI全栈技术手册手册！（限时公开下载）

专知会员服务

104+阅读 · 2022年6月8日

斯坦福大学NLU公开课CS224U来了，视频代码PPT都有

专知会员服务

42+阅读 · 2022年4月11日