Fashion vision-language pre-training models have shown efficacy for a wide range of downstream tasks. However, general vision-language pre-training models pay less attention to fine-grained domain features, while these features are important in distinguishing the specific domain tasks from general tasks. We propose a method for fine-grained fashion vision-language pre-training based on fashion Symbols and Attributes Prompt (FashionSAP) to model fine-grained multi-modalities fashion attributes and characteristics. Firstly, we propose the fashion symbols, a novel abstract fashion concept layer, to represent different fashion items and to generalize various kinds of fine-grained fashion features, making modelling fine-grained attributes more effective. Secondly, the attributes prompt method is proposed to make the model learn specific attributes of fashion items explicitly. We design proper prompt templates according to the format of fashion data. Comprehensive experiments are conducted on two public fashion benchmarks, i.e., FashionGen and FashionIQ, and FashionSAP gets SOTA performances for four popular fashion tasks. The ablation study also shows the proposed abstract fashion symbols, and the attribute prompt method enables the model to acquire fine-grained semantics in the fashion domain effectively. The obvious performance gains from FashionSAP provide a new baseline for future fashion task research.


翻译:时尚视觉语言预训练模型已经在广泛的下游任务中显示出了效果。然而,通用视觉语言预训练模型更少关注细粒度的领域特征,而这些特征在区分特定领域任务与通用任务方面非常重要。我们提出了一种基于时尚符号和属性提示(FashionSAP)的细粒度时尚视觉语言预训练方法,以建模细粒度多模式时尚属性和特征。首先,我们提出时尚符号,一种新的抽象时尚概念层,用于表示不同的时尚物品并概括各种细粒度时尚特征,使对细粒度属性的建模更加有效。其次,我们提出了属性提示方法来显式地学习时尚物品的特定属性。我们根据时尚数据的格式设计适当的提示模板。我们在两个公共时尚基准数据集上进行了全面的实验,即FashionGen和FashionIQ,并且FashionSAP在四个流行的时尚任务中获得了SOTA性能。基准研究还表明,所提出的抽象时尚符号和属性提示方法使得模型能够有效地获取时尚领域的细粒度语义。FashionSAP的明显性能收益为未来的时尚任务研究提供了新的基线。

0
下载
关闭预览

相关内容

NeurlPS 2022 | 深度双向语言-知识图谱预训练
专知会员服务
9+阅读 · 2022年11月28日
【CVPR2022】跨模态检索的协同双流视觉语言预训练模型
专知会员服务
20+阅读 · 2022年4月21日
知识增强预训练语言模型:全面综述
专知会员服务
87+阅读 · 2021年10月19日
专知会员服务
15+阅读 · 2021年9月25日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
NAACL 2022 | 基于Prompt的文本生成迁移学习
PaperWeekly
1+阅读 · 2022年8月31日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月29日
Arxiv
0+阅读 · 2023年5月29日
Arxiv
0+阅读 · 2023年5月29日
Conditional Prompt Learning for Vision-Language Models
Arxiv
13+阅读 · 2022年3月10日
Arxiv
27+阅读 · 2021年2月17日
VIP会员
相关资讯
NAACL 2022 | 基于Prompt的文本生成迁移学习
PaperWeekly
1+阅读 · 2022年8月31日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员