Rethinking Image Cropping: Exploring Diverse Compositions from Global Views
Gengyun Jia, Huaibo Huang, Chaoyou Fu, Ran He
图像裁切是一种简单有效的可以提升图像构图美感的方式。现有的两类模型,候选裁切评估模型和裁切坐标回归模型,都有明显的缺陷。候选裁切评估模型难以遍历所有高质量裁切,无法满足全局性要求;而裁切坐标回归模型则只能输出一个裁切结果,忽视了多样性。针对全局性和多样性不能兼得的问题,我们提出了一种基于软标签集合预测的图像裁切模型。模型使用一组固定数量的可学习锚通过条件Transformer网络回归多个裁切。回归裁切与真实裁切进行二分图匹配,匹配结果用于训练一个辅助的有效性分类器,使模型可以从所有预测中挑选有效子集。为了缓解有效性分类硬标签与无效裁切的真实质量之间的不一致性,我们进一步提出了两种标签平滑策略。第一种基于裁切的局部冗余性对质量分数进行直接估计并映射为软标签;第二种使用自蒸馏策略进行自主平滑。两种策略分别适用于密集标注和稀疏标注的数据集。我们的模型在两个版本的GAIC数据集和FLMS数据集上均取得突出效果,同时克服了两类传统模型的缺陷,能够对图像进行全局遍历并找出多个高质量裁切。更加适用于真实场景的应用。
基于软标签集合预测的图像裁切模型