新智元报道
去年11月首播的《英雄联盟:双城之战》让各位老召唤师直呼爷青回,主题曲《孤勇者》也成了小学生的新暗号。
《双城之战》由中、美、法三国开发制作,内容包含7000多个镜头和上万个手绘原画,但制作耗费了六年时间,小学生都等成了大学生。
随着DALL-E 2等图像生成神器的上线,设计师或许不必再从头开始绘制,只需要在草稿上进行修改即可。
更重要的是,要是你也想通过漫画讲述「自己的故事」,即便完全不懂绘画,你也能圆梦!
最近在Midjourney官方的Discord服务器上,网友KrisKashtanova发布了几页用Midjourney(类似于DALL-E 2的程序)制作的漫画小说Zarya of the Dawn,瞬间引发了激烈的讨论,很快就登上了AI项目的热榜。
云盘地址:https://drive.google.com/drive/folders/1bm8xHxYKlrYDd8BGa5tbu9esg8CLwN5Y
引起热议的原因并非是内容精彩(毕竟只有17页),而是作者提供了一种全新的方式来利用基于文本的图像生成模型,让每个人都有用图文讲述自己故事的机会!Zarya of the Dawn也是首部AI生成的图文小说(graphic novel)。
而且作者还解决了诸多生成上的技术问题,例如主人公的一致性问题等。
作者Kristina Kashtanova出生和成长于俄罗斯北高加索地区,在纽约居住。她拥有软件工程背景,在计算机图形领域拥有十年工作经验。离开软件行业后,成为了一名记者和专业摄影师。目前从事用户体验和运动设计相关的工作。
用AI讲图文故事
Kristina在学习使用Cinema4D 开发3D时萌生了一个想法,即通过图像来讲述故事,内容是关于一个人访问不同的世界来理解她的情绪和感受。
从2021年开始,Kristina陆陆续续做了一些内容,但这件事非常耗时,并且对于新手来说也很难。由于空闲时间非常有限,所以进展很慢。
直到AI加入战场,Kristina只需要1个小时就能完成一整页的图文小说,再使用Comic Life 3为图片添加文本和分格即可,在工作日的下班时间也能轻松完成,整个过程「轻松加愉快」。
Kristina选择了一个关于始于纽约市未来的不同世界的故事,因为作者住在纽约,她觉得用科幻来想象身边的地点很有趣。
在Zarya of the Dawn发布的10天里,大约有1000个人受到启发,开始利用Midjouney创建自己的故事。
不过一个关键问题是,基于文本来生成图像的人物形象在不同的生成中可能会有所变化,要是主人公的形象换来换去的,那读者难免理不清头绪。
刚开始Kristina选择用名人的名字作为提示文本,这也是最简单的方法,作者选用的公众人物为美国女演员Zendaya,但这种行为实际上已经违反了AI道德准则,在未经授权的情况下生成人脸,所以Kristina只能放弃这个方案。
第二种方法则是使用MetaHuman自己捏脸,并把该形象传入到Midjourney
小说中的第一个自设计主角为Kristina的祖母Raya,作者也是用这种方式表达怀念。
Kristina将MetaHuman的截图喂给MidJourney,并生成不同表情的彩色铅笔草图。MJ在处理表情方面做的不是特别好,但MetaHuman可以生成一个有表情的角色作为源图像。
目前Midjourney仍然有一些限制,比如不能很好地处理画面中的多人场景或指定人物的动作,这对小说创作来说是很必要的。虽然有一些方法可以绕过该机制,但并不能保证一定成功,而且会花费很多时间。
这也是AI绘制漫画下一步要解决的主要问题。
Midjouney还有一个历史功能,可以根据想象和使用的词,然后以某种相同方式产生图像,这也是为什么漫画中的环境和风格是一致的。
当然,Kristina肯定不是唯一想出这个主意的人,Elvis Deane也是Midjourney用户,正在创作他的第一部图文小说。
Elvis 有20多年的漫画创作经验,但还是被AI创作漫画的能力给惊艳到了,直接开通了MidJourney的会员继续生成图像。
在解决主角一致性上,Elvis同样使用知名演员来友情客串。
整个过程十分顺利,仅花费几个小时生成了几百张图像后,就获得了一个完整的故事,Elvis自述:这是我一生中最令人惊奇的创作时光之一。用AI创作真是太舒服了。
在接下来的两周时间里,Elvis慢慢开始生成更多图像并进行测试,他认为整个创作过程更像是「即兴表演」,AI模型会对你提的任何要求返回一个结果,然后你再根据这个结果进行反馈,不断修正,直到图像达到满意的效果,只不过AI并不能完全理解人类的语言。
比如你说,「我希望这个角色出现在书架前的书店里」,生成的图像有时候主角的头会在书架上,有时她的头会漂浮在某个地方,有时两个头会出现在同一个镜头里,尽管提示文本已经描述得很清晰了,但生成结果完全是不可预测的,大概率也不是你想要的。
更困难的是指定角色的行为,比如说某个角色被杀了,或者主角从反派手中逃走,MidJourney几乎不可能返回结果;再比如输入「跑步」命令时,角色的一条腿可能会离开地面,但更多的情况是站在原地;最最困难的是「躲避」动作,不论作者如何尝试,总是得不到想要的结果。
总的来说,Elvis对短时间内创作的漫画小说还算满意,在goats发布到reddit上后,网友的反应也都是惊叹。不过也有一位网友表达了悲观情绪:作为刚入行的漫画书作家,我想知道自己未来是不是要失业了?
在AI图像生成器的讨论中,另一个重要问题就是版权。根据 Midjourney 的服务协议,输入prompt的人享有生成图像的版权,但对于prompt版权的归属却没有定论。
毕竟掌握了prompt的人,也就掌握了图像,尤其是现在已经有交易软件开始贩卖文本prompt。
再比如,Elvis使用知名演员作为主角是否会影响到版权?
虽然目前主流艺术界对于使用AI工具生成漫画的态度都是「你做得不错,但你不是艺术家」。
毋庸置疑,图像生成很好用,但也要警惕:艺术家的核心是思想和创造力,否则工具反而会限制作品的表现力。
新赛道已开
8月16日,亚马逊上架了一本特别的童书,售价8.99美元,特别之处在于所有内容都是由AI生成的。
免费电子书:https://drive.google.com/file/d/1ho-pAC_U_TVPLYn_FoPFEJVJHXhsubEe/view
书的图片通过DALL-E制作,内容为经典的敲门笑话,帮助儿童学习各种蔬菜的单词。
敲门笑话的笑点通常为双关语,由两人对答组成,例如
甲:Knock, knock!(敲门,咚咚咚!)
乙:Who's there?(何人?)
甲:Doctor.(博士)
乙:Doctor Who?(哪个博士?/ 何博士?)
甲:How did you know?!(你怎么知道?!)
该书目前已经收获了三个五星好评(不知道是否为亲戚朋友),都表示「小孩子很爱这些笑话」,内容很有意思。
不过这本书的篇幅不长,只包含六个变化的场景,作者表示生成不断变化的场景、对内容进行替换、DALL-E的语义理解上仍然存在缺陷。