【TPAMI2022】从展示到讲述: 基于深度学习的图像描述研究综述论文，From Show to Tell: A Survey on Deep Learning-based Image Captioning

视觉和语言在生成智能中起着至关重要的作用。因此，在过去的几年中，大量的研究致力于图像描述，即用句法和语义上有意义的句子描述图像的任务。从2015年开始，该任务通常使用由可视化编码步骤和用于文本生成的语言模型组成的流程来解决。在这些年里，这两个组件通过开发对象区域、属性和关系以及引入多模态连接、充分关注的方法和类似BERT的早期融合策略得到了相当大的发展。然而，尽管已经取得了令人印象深刻的成果，但关于图像描述的研究还没有得出一个结论性的答案。这项工作旨在提供图像描述方法的全面概述和分类，从视觉编码和文本生成到训练策略，使用的数据集和评估指标。在这方面，我们定量比较了许多相关的最先进的方法，以确定在图像描述架构和训练策略中最具影响力的技术创新。此外，本文还分析和讨论了该问题的许多变体及其面临的挑战。这项工作的最终目标是作为一个工具来理解现有的最先进的技术，并强调计算机视觉和自然语言处理可以找到最佳协同的未来研究方向。

成为VIP会员查看完整内容

相关内容

TPAMI

关注 3115

IEEE模式分析和机器智能期刊TPAMI（IEEE Trans on Pattern Analysis and Machine Intelligence）出版了有关计算机视觉和图像理解的所有传统领域，模式分析和识别的所有传统领域以及机器智能的选定领域的文章，其中特别强调了用于模式分析的机器学习。还涵盖了诸如可视搜索，文档和手写分析，医学图像分析，视频和图像序列分析，基于内容的图像和视频检索，面部和手势识别以及相关的专用硬件和/或软件体系结构等技术领域。官网地址：http://dblp.uni-trier.de/db/journals/pami/

专知会员服务

43+阅读 · 2021年7月17日