提起梵高,大家肯定都不陌生。他一生作了近两千副作品,作品广为流传。
图1:梵高的著名画作
如果你对梵高特别好奇,肯定希望了解关于梵高全面的、不同风格的作品。这个时候,你有可能会打开搜索引擎,那么你可能会得到下面图2(a)的结果,基本是梵高类似风格的作品,并且还有大量的重复。那么,你对梵高的了解可能就仅仅局限于此了。
图2:梵高作品展示
要知道,梵高创作风格不仅仅局限于后印象派,创作形式也不仅仅包含油画,还有素描画等,如图2(b)。
基于这样的考虑。我们利用人工智能技术,实现自动挑选出某一位画家风格多样的代表性作品,帮助用户了解他/她不同的创作风格和技巧。
(1)提取画作的风格-内容特征
首先,使用在ImageNet数据库上预训练过的卷积神经网络VGG-19,计算画作的风格-内容特征。我们提取画作在VGG网络中的深层特征,表示画作内容特征,计算画作在VGG网络中的浅深层特征图的內积即Gram矩阵,表示图片风格特征。然后,构造图片风格内容特征向量,来表示画作。
(2)鲁棒连续性聚类得到聚类结果以及初始代表作
基于[1]中描述的聚类算法,使用一种可迭代的鲁棒估计器,通过优化一个连续的目标揭示数据中潜在的聚类结构。该估计器输入是由以风格-内容特征为表示的n个图像,它将所有数据点嵌入到部分连接图ε中,通过不断优化迭代,得到聚类中心,以此聚类中心表示我们方法计算出来的初始代表作。
(3)基于贝叶斯框架的拒识机制
由于基于质心的聚类方法特别容易受到混淆样本的影响,这将影响代表性的绘画提取的准确性。基于这个现象,采用拒识机制来发现在每个类别中不能被准确分类的图片,以生成更可靠和具有代表性的类别。
图3:拒识机制
简单来说,在步骤2中,会得到聚类结果,假设属于类别M的集合Um中的元素是独立的,符合贝叶斯分布,并且可以求得M类类条件概率密度分布,如图3。那么画作在分布边缘,说明该画作属于该类别的概率小;画作处在两个分布交接处,说明该画作被易于混淆类别,那么在重新计算聚类中心的时候我们将这些画作剔除出去,更新代表作计算。重复群集拒绝过程直到停止标准满足为止。然后,我们得到每个聚类中具有最高的代表图像,作为新的代表作。
通过这个方法,就可以快速得到任何画家的代表作品,不需要专业的先验知识,也避免了耗费大量的人力和时间。依然以梵高的为例,图4展示了使用我们的方法对梵高的绘画的选择结果。从梵高所有1928张的数字艺术作品中选择了20幅有代表性的作品,结果风格更加多样化,并且包含了梵高著名的画作。
图4:梵高代表性画作
为了更加清晰明了的展示该方法的有效性,我们使用算法自动挑选出的同一画家的多幅代表作作为目标风格,生成图5所示四组图像风格迁移结果。结果证明该方法选取的代表作具有风格多样化的特点。
图5:风格化结果
如需详细了解技术细节,请参阅我们的论文[2, 3]。
谁说科研人员只会埋头实验?
参考文献:
[1] Shah, S.A., Koltun, V.: Robust Continuous Clustering. Proceedings of the National Academy of Sciences 114(37), 9814–9819
[2] Yingying Deng, Fan Tang, Weiming Dong, Fuzhang Wu, Oliver Deussen, Changsheng Xu: Selective Clustering for Representative Paintings Selection. Multimedia Tools and Applications 78(14): 19305-19323 (2019)
[3] Yingying Deng, Fan Tang, Weiming Dong, Hanxing Yao, Bao-Gang Hu: Style-Oriented Representative Paintings Selection. SIGGRAPH ASIA (Posters) 2017: 12:1-12:2
更多精彩内容,欢迎关注
中科院自动化所官方网站:
http://www.ia.ac.cn
欢迎后台留言、推荐您感兴趣的话题、内容或资讯,小编恭候您的意见和建议!如需转载或投稿,请后台私信。
作者:多媒体计算团队邓盈盈
审校:多媒体计算团队董未名