Image captioning has increasingly large domains of application, and fashion is not an exception. Having automatic item descriptions is of great interest for fashion web platforms hosting sometimes hundreds of thousands of images. This paper is one of the first tackling image captioning for fashion images. To contribute addressing dataset diversity issues, we introduced the InFashAIv1 dataset containing almost 16.000 African fashion item images with their titles, prices and general descriptions. We also used the well known DeepFashion dataset in addition to InFashAIv1. Captions are generated using the \textit{Show and Tell} model made of CNN encoder and RNN Decoder. We showed that jointly training the model on both datasets improves captions quality for African style fashion images, suggesting a transfer learning from Western style data. The InFashAIv1 dataset is released on \href{https://github.com/hgilles06/infashai}{Github} to encourage works with more diversity inclusion.


翻译:图像字幕的应用领域越来越大, 时尚也是一种例外。 自动项目描述对于时装网络平台有时有数十万张图像托管非常感兴趣。 本文是首个针对时装图像的图像字幕。 为了帮助解决数据集多样性问题, 我们引入了 InFashAIv1 数据集, 包含近16000个非洲时装项目图片及其标题、 价格和一般描述。 除了 InFashAIv.1 外, 我们还使用众所周知的 DeepFashion数据集。 标题是使用CNN encoder 和 RNNN Decoder 制作的\ textit{Show and Tell} 模型生成的。 我们显示, 联合培训这两个数据集的模型可以提高非洲时装图像的字幕质量, 建议从西方时装数据中进行传输学习。 InFashAIv1 数据集在\fs://github. com/ higilles06/infashai ⁇ Github} 上发布, 鼓励与更多多样性融合合作。

0
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
专知会员服务
15+阅读 · 2021年5月21日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
176+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Arxiv
0+阅读 · 2021年8月25日
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
Image Captioning based on Deep Reinforcement Learning
Arxiv
6+阅读 · 2018年5月22日
Arxiv
11+阅读 · 2018年5月13日
VIP会员
相关VIP内容
专知会员服务
15+阅读 · 2021年5月21日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
176+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关论文
Arxiv
0+阅读 · 2021年8月25日
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
Image Captioning based on Deep Reinforcement Learning
Arxiv
6+阅读 · 2018年5月22日
Arxiv
11+阅读 · 2018年5月13日
Top
微信扫码咨询专知VIP会员