In this paper, we study the impact of motion blur, a common quality flaw in real world images, on a state-of-the-art two-stage image captioning solution, and notice a degradation in solution performance as blur intensity increases. We investigate techniques to improve the robustness of the solution to motion blur using training data augmentation at each or both stages of the solution, i.e., object detection and captioning, and observe improved results. In particular, augmenting both the stages reduces the CIDEr-D degradation for high motion blur intensity from 68.7 to 11.7 on MS COCO dataset, and from 22.4 to 6.8 on Vizwiz dataset.


翻译:在本文中,我们研究了运动模糊性的影响,即真实世界图像中常见的质量缺陷,对最先进的两阶段图像说明解决方案的影响,并且注意到随着模糊强度的增加,溶液性能的退化。我们调查了在解决方案的每个阶段或两个阶段,即物体探测和说明阶段使用培训数据放大性能来提高溶液模糊性能的方法,并观察了改进的结果。特别是,这两个阶段的扩大使得高运动模糊性能的CIDER-D退化从MS COCO数据集的68.7降至11.7,在Vizwiz数据集的22.4降至6.8。

0
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
面向健康的大数据与人工智能,103页ppt
专知会员服务
108+阅读 · 2020年12月29日
专知会员服务
39+阅读 · 2020年9月6日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
自适应注意力机制在Image Caption中的应用
PaperWeekly
10+阅读 · 2018年5月10日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Arxiv
15+阅读 · 2021年7月14日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
Arxiv
11+阅读 · 2018年5月13日
VIP会员
Top
微信扫码咨询专知VIP会员