给AI一段故事,就能变成漫画,这个来自人大微软和北影的AI,要启发电影人的灵感

2019 年 12 月 3 日 量子位
郭一璞 发自 凹非寺
量子位 报道 | 公众号 QbitAI

看图,永远比看字省事。

比如说,相比看文字版小说,看小说改编的漫画更简单轻松。

那么,如何把一段故事自动变成漫画呢?

AI已经可以做到了。给它一段故事,它就可以用图片把故事讲出来,稍加修改,就变成了一套连环画。

像这样的一段故事:

很久以前, 有个小男孩在森林里迷路了, 他走了好久, 都走饿了, 他很想吃妈妈做的饼, 可这时候小男孩回不去呀, 于是他就在地上画了一个大大的饼, 还在饼上点 上芝麻。

小男孩看着看着, 好像自己已经吃上了大饼, 于是他觉得自己不是很饿了, 重新站起来沿着一条小路走.。

很快, 小男孩的爸妈就找到了他, 他们一起回到家, 吃上了真正香喷喷的饼。

AI可以把它变成这样的漫画:

而且,这种漫画形式还可以在电影工业中充当故事板,辅助电影人们进行艺术创作。

找到能讲故事的图

那么这个过程是怎样实现的呢?

首先要说明一点,这些图片并不是AI凭空画的,而是采取了一种更简单省事的方法:

从现成的图库里找出一些构图相似的,拿来改一改

这里的图库,叫做GraphMovie数据集,数据来源是一些影评网站。

但是数据集里的图很多,怎么才能用AI自动的找出最符合你故事的图片呢?

这里用到了一个模型,叫做情景感知密集匹配模型(Contextual-Aware Dense Matching model,CADM)

它长这样:

根据故事的内容,CADM找到了这样的一些图像:

另外,还有一个模型叫做No Context,它是此前“看字找图”这个领域中表现最好的AI。

No Context也找了一些图像出来:

不过,图还是有点少,人家好歹也是个完整的故事,你总不能拿这么几张图就讲完,这样故事没有细节,读者的体验也不好。

现在,请出第三个模型:贪婪解码算法,它负责根据故事里的细节,再找找能用上的图。

让它出马来补一补之后,故事立马就完整了:

把图片的画风统一

不过,就这样的效果,你会看得糊里糊涂,好像并不能传达出前面文本里的故事。

问题出在哪儿呢?

第一个问题是,图片里有许多背景、环境等相关元素,跟故事主线毫无关系,看到它还会影响你对故事的理解。

需要把这些冗余元素删掉,这里用到了何恺明的成名作Mask R-CNN,进行区域分割,删掉图片中和故事不相关的部分。

现在,这些图片长这样:

第二个问题,这些图片的画风实在是差异太大了,把这样的漫画拿出去,会被读者打的。

所以,需要把图片的样式统一起来,这里用到了一个工具CartoonGAN,从字面意思就可以理解,这是一个让图片变成卡通风格的GAN(生成对抗网络)。

在卡通GAN处理之后,这组图片变成了这样:

似乎好了一些,但是还有一个大bug:这些人长得不一样呀!你说他们是同一个故事的主角,打死我也不信。

于是,第三个问题来了,怎么才能让这些人都长成一个样?

这里,研究者们直接找了一个软件,叫做Autodesk Maya,是一个在电影里处理3D图像的软件,靠它制作出3D的场景、人物和道具,用半手动的方式把9张图片里的人全变成一个样。

不过论文作者表示,未来这个制作3D图像的过程有望全自动生成。

这一顿操作,是真的猛如虎,9张八竿子打不着边的图,现在画风一致、故事流畅,甚至还补充了背景和美化。

在电影工业中有大用途

其实,这样生成的“漫画”并不是最终结果。

它其实是用来拍电影的。

拍电影的准备过程中,需要一个Demo叫做“故事板(storyboard)”。

借助故事板,电影人在创作的过程中就可以先改Demo,定下来之后再完成成品,把撕逼的过程放在前面,防止做完之后甲方爸爸再提修改意见,导致工作量急剧提升。

因此,像这篇论文里这样,自动生成故事板,就可以节约电影人的许多时间,提高创作者们的生产效率。

人大博士出品

这篇论文的作者团队非常庞大,一共9位作者,分别来自中国人民大学、微软和北京电影学院。

一作陈师哲目前在人大读到了博士五年级,也是曾在微软小冰团队实习,还曾经赴CMU和阿德莱德大学访学。

她也是一位学术达人,仅仅今年一年,包括这篇论文在内就已经发了三篇顶会一作。

另外,微软小冰团队首席科学家宋睿华也参与到了这项研究中。

宋睿华博士毕业于清华大学,长期研究短文本对话与生成、信息检索与提取等领域,曾担任SIGIR、SIGKDD、CIKM、WWW、WSDM等会议的程序主席或高级程序主席。

传送门

Neural Storyboard Artist: Visualizing Stories with Coherent Image Sequences
作者:Shizhe Chen, Bei Liu, Jianlong Fu, Ruihua Song, Qin Jin, Pingping Lin, Xiaoyu Qi, Chunting Wang, Jin Zhou
https://arxiv.org/abs/1911.10460v1

作者系网易新闻·网易号“各有态度”签约作者


大咖齐聚!参会嘉宾重磅揭晓

量子位 MEET 2020 智能未来大会启幕,李开复、倪光南、景鲲、周伯文、吴明辉、曹旭东、叶杰平、唐文斌、王砚峰、黄刚、马原等AI大咖与你一起读懂人工智能。观众票已售罄,欢迎大家戳链接预约直播:http://vku.youku.com/live/ilproom?id=8029679

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

登录查看更多
0

相关内容

电影是一种视听媒介,利用胶卷、录像带或数位媒体将影像和声音捕捉,再加上后期的编辑工作而成。
【ICML2020-华为港科大】RNN和LSTM有长期记忆吗?
专知会员服务
74+阅读 · 2020年6月25日
【中科院自动化所】视觉对抗样本生成技术概述
专知会员服务
35+阅读 · 2020年4月15日
【芝加哥大学】可变形的风格转移,Deformable Style Transfer
专知会员服务
30+阅读 · 2020年3月26日
【干货书】流畅Python,766页pdf,中英文版
专知会员服务
224+阅读 · 2020年3月22日
【经典书】Python计算机视觉编程,中文版,363页pdf
专知会员服务
139+阅读 · 2020年2月16日
【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换
专知会员服务
35+阅读 · 2019年12月15日
学习一个宫崎骏画风的图像风格转换GAN
AI科技评论
18+阅读 · 2020年3月13日
人机交互如何改变人类生活 | 公开课笔记
人工智能头条
4+阅读 · 2018年7月9日
人工智能创作的春天来了
微软丹棱街5号
7+阅读 · 2018年3月29日
热点|清华才女飙泪谈人工智能:这才是我最大的担心
机器人大讲堂
3+阅读 · 2017年12月4日
羞羞的AI,如何改变色情产业?
虎嗅网
9+阅读 · 2017年11月24日
微软洪小文:AI 还是个小学生,资本请慎重!
EGONetworks
4+阅读 · 2017年9月6日
Generating Fact Checking Explanations
Arxiv
9+阅读 · 2020年4月13日
Arxiv
5+阅读 · 2018年5月5日
Arxiv
3+阅读 · 2018年4月3日
VIP会员
相关资讯
学习一个宫崎骏画风的图像风格转换GAN
AI科技评论
18+阅读 · 2020年3月13日
人机交互如何改变人类生活 | 公开课笔记
人工智能头条
4+阅读 · 2018年7月9日
人工智能创作的春天来了
微软丹棱街5号
7+阅读 · 2018年3月29日
热点|清华才女飙泪谈人工智能:这才是我最大的担心
机器人大讲堂
3+阅读 · 2017年12月4日
羞羞的AI,如何改变色情产业?
虎嗅网
9+阅读 · 2017年11月24日
微软洪小文:AI 还是个小学生,资本请慎重!
EGONetworks
4+阅读 · 2017年9月6日
Top
微信扫码咨询专知VIP会员