2D image-based virtual try-on has attracted increased attention from the multimedia and computer vision communities. However, most of the existing image-based virtual try-on methods directly put both person and the in-shop clothing representations together, without considering the mutual correlation between them. What is more, the long-range information, which is crucial for generating globally consistent results, is also hard to be established via the regular convolution operation. To alleviate these two problems, in this paper we propose a novel two-stage Cloth Interactive Transformer (CIT) for virtual try-on. In the first stage, we design a CIT matching block, aiming to perform a learnable thin-plate spline transformation that can capture more reasonable long-range relation. As a result, the warped in-shop clothing looks more natural. In the second stage, we propose a novel CIT reasoning block for establishing the global mutual interactive dependence. Based on this mutual dependence, the significant region within the input data can be highlighted, and consequently, the try-on results can become more realistic. Extensive experiments on a public fashion dataset demonstrate that our CIT can achieve the new state-of-the-art virtual try-on performance both qualitatively and quantitatively. The source code and trained models are available at https://github.com/Amazingren/CIT.


翻译:以 2D 图像为基础的虚拟试镜已经吸引了多媒体和计算机视觉界的更多关注。然而,大多数现有的基于图像的虚拟试镜方法直接将人和在商店的衣着展示组合在一起,而没有考虑到两者的相互关系。此外,对于产生全球一致的结果至关重要的远程信息,也很难通过常规演进行动来建立。为了缓解这两个问题,我们在本文件中提议为虚拟试镜设计一个新的两阶段Cloth互动变换器(CIT)。在第一阶段,我们设计了一个CIT匹配块,目的是进行可以学习的薄盘样板样板样板样板转换,以捕捉到更合理的长距离关系。结果,在第二阶段,我们提出一个新的CIT推理块,以建立全球互动依赖关系。基于这种相互依存关系,可以突出输入数据中的重要区域,因此,试录结果可以变得更加现实。在公共时装数据集上进行的广泛实验表明,我们的CIT 能够实现新的州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州-

0
下载
关闭预览

相关内容

IFIP TC13 Conference on Human-Computer Interaction是人机交互领域的研究者和实践者展示其工作的重要平台。多年来,这些会议吸引了来自几个国家和文化的研究人员。官网链接:http://interact2019.org/
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
【边缘智能综述论文】A Survey on Edge Intelligence
专知会员服务
121+阅读 · 2020年3月30日
TensorFlow 2.0 学习资源汇总
专知会员服务
66+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
已删除
将门创投
4+阅读 · 2018年6月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
胶囊网络资源汇总
论智
7+阅读 · 2018年3月10日
语义分割+视频分割开源代码集合
极市平台
35+阅读 · 2018年3月5日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
Arxiv
19+阅读 · 2020年12月23日
Exploring Visual Relationship for Image Captioning
Arxiv
15+阅读 · 2018年9月19日
Viewpoint Estimation-Insights & Model
Arxiv
3+阅读 · 2018年7月3日
VIP会员
相关资讯
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
已删除
将门创投
4+阅读 · 2018年6月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
胶囊网络资源汇总
论智
7+阅读 · 2018年3月10日
语义分割+视频分割开源代码集合
极市平台
35+阅读 · 2018年3月5日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
Top
微信扫码咨询专知VIP会员