【趣玩AI】AI“一键帮你”追画家

2019 年 11 月 19 日 中国科学院自动化研究所


CASIA
解锁更多智能之美

提起梵高,大家肯定都不陌生。他一生作了近两千副作品,作品广为流传。

图1:梵高的著名画作

如果你对梵高特别好奇,肯定希望了解关于梵高全面的、不同风格的作品。这个时候,你有可能会打开搜索引擎,那么你可能会得到下面图2(a)的结果,基本是梵高类似风格的作品,并且还有大量的重复。那么,你对梵高的了解可能就仅仅局限于此了。

图2:梵高作品展示

要知道,梵高创作风格不仅仅局限于后印象派,创作形式也不仅仅包含油画,还有素描画等,如图2(b)。


基于这样的考虑。我们利用人工智能技术,实现自动挑选出某一位画家风格多样的代表性作品,帮助用户了解他/她不同的创作风格和技巧。


(1)提取画作的风格-内容特征

首先,使用在ImageNet数据库上预训练过的卷积神经网络VGG-19,计算画作的风格-内容特征。我们提取画作在VGG网络中的深层特征,表示画作内容特征,计算画作在VGG网络中的浅深层特征图的內积即Gram矩阵,表示图片风格特征。然后,构造图片风格内容特征向量,来表示画作。

(2)鲁棒连续性聚类得到聚类结果以及初始代表作

基于[1]中描述的聚类算法,使用一种可迭代的鲁棒估计器,通过优化一个连续的目标揭示数据中潜在的聚类结构。该估计器输入是由以风格-内容特征为表示的n个图像,它将所有数据点嵌入到部分连接图ε中,通过不断优化迭代,得到聚类中心,以此聚类中心表示我们方法计算出来的初始代表作。

(3)基于贝叶斯框架的拒识机制

由于基于质心的聚类方法特别容易受到混淆样本的影响,这将影响代表性的绘画提取的准确性。基于这个现象,采用拒识机制来发现在每个类别中不能被准确分类的图片,以生成更可靠和具有代表性的类别。

图3:拒识机制

简单来说,在步骤2中,会得到聚类结果,假设属于类别M的集合Um中的元素是独立的,符合贝叶斯分布,并且可以求得M类类条件概率密度分布,如图3。那么画作在分布边缘,说明该画作属于该类别的概率小;画作处在两个分布交接处,说明该画作被易于混淆类别,那么在重新计算聚类中心的时候我们将这些画作剔除出去,更新代表作计算。重复群集拒绝过程直到停止标准满足为止。然后,我们得到每个聚类中具有最高的代表图像,作为新的代表作。


通过这个方法,就可以快速得到任何画家的代表作品,不需要专业的先验知识,也避免了耗费大量的人力和时间。依然以梵高的为例,图4展示了使用我们的方法对梵高的绘画的选择结果。从梵高所有1928张的数字艺术作品中选择了20幅有代表性的作品,结果风格更加多样化,并且包含了梵高著名的画作。

图4:梵高代表性画作

为了更加清晰明了的展示该方法的有效性,我们使用算法自动挑选出的同一画家的多幅代表作作为目标风格,生成图5所示四组图像风格迁移结果。结果证明该方法选取的代表作具有风格多样化的特点。

图5:风格化结果

如需详细了解技术细节,请参阅我们的论文[2, 3]。


谁说科研人员只会埋头实验?



参考文献:

[1] Shah, S.A., Koltun, V.: Robust Continuous Clustering. Proceedings of the National Academy of Sciences 114(37), 9814–9819

[2] Yingying Deng, Fan Tang, Weiming Dong, Fuzhang Wu, Oliver Deussen, Changsheng Xu: Selective Clustering for Representative Paintings Selection. Multimedia Tools and Applications 78(14): 19305-19323 (2019)

[3] Yingying Deng, Fan Tang, Weiming Dong, Hanxing Yao, Bao-Gang Hu: Style-Oriented Representative Paintings Selection. SIGGRAPH ASIA (Posters) 2017: 12:1-12:2


智显未来,洞见新知
Discover Intelligence Future

更多精彩内容,欢迎关注

中科院自动化所官方网站:

http://www.ia.ac.cn

欢迎后台留言、推荐您感兴趣的话题、内容或资讯,小编恭候您的意见和建议!如需转载或投稿,请后台私信。

作者:多媒体计算团队邓盈盈          

审校:多媒体计算团队董未名



登录查看更多
0

相关内容

【CVPR2020】多模态社会媒体中危机事件分类
专知会员服务
54+阅读 · 2020年4月18日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
【芝加哥大学】可变形的风格转移,Deformable Style Transfer
专知会员服务
30+阅读 · 2020年3月26日
【综述】关键词生成,附10页pdf论文下载
专知会员服务
52+阅读 · 2019年11月20日
AI 最大的挑战:也许我们从根上就错了
InfoQ
5+阅读 · 2019年6月14日
能生成逼真图像的不只有 GAN
机器学习算法与Python学习
8+阅读 · 2019年6月6日
CVPR 2018文章解读——腾讯AI Lab
计算机视觉战队
4+阅读 · 2018年5月16日
迁移学习之Domain Adaptation
全球人工智能
18+阅读 · 2018年4月11日
无问西东,只问哈希
线性资本
3+阅读 · 2018年1月18日
GAN的数学原理
算法与数学之美
14+阅读 · 2017年9月2日
AI前线,从一个公众号开始
大数据杂谈
4+阅读 · 2017年7月7日
Directions for Explainable Knowledge-Enabled Systems
Arxiv
26+阅读 · 2020年3月17日
Seeing What a GAN Cannot Generate
Arxiv
8+阅读 · 2019年10月24日
Neural Approaches to Conversational AI
Arxiv
8+阅读 · 2018年12月13日
Arxiv
5+阅读 · 2018年10月23日
Arxiv
4+阅读 · 2018年4月17日
Arxiv
6+阅读 · 2018年1月29日
VIP会员
相关资讯
AI 最大的挑战:也许我们从根上就错了
InfoQ
5+阅读 · 2019年6月14日
能生成逼真图像的不只有 GAN
机器学习算法与Python学习
8+阅读 · 2019年6月6日
CVPR 2018文章解读——腾讯AI Lab
计算机视觉战队
4+阅读 · 2018年5月16日
迁移学习之Domain Adaptation
全球人工智能
18+阅读 · 2018年4月11日
无问西东,只问哈希
线性资本
3+阅读 · 2018年1月18日
GAN的数学原理
算法与数学之美
14+阅读 · 2017年9月2日
AI前线,从一个公众号开始
大数据杂谈
4+阅读 · 2017年7月7日
相关论文
Directions for Explainable Knowledge-Enabled Systems
Arxiv
26+阅读 · 2020年3月17日
Seeing What a GAN Cannot Generate
Arxiv
8+阅读 · 2019年10月24日
Neural Approaches to Conversational AI
Arxiv
8+阅读 · 2018年12月13日
Arxiv
5+阅读 · 2018年10月23日
Arxiv
4+阅读 · 2018年4月17日
Arxiv
6+阅读 · 2018年1月29日
Top
微信扫码咨询专知VIP会员