摘要 近年来,跨模态研究吸引了越来越多学者的关注,尤其是连接视觉和语言的相关课题。该文针对跨视觉和语言模态研究中的核心任务——图像描述生成,进行文献综述。该文从基于视觉的文本生成框架、基于视觉的文本生成研究中的关键问题、图像描述生成模型的性能评价和图像描述生成模型的主要发展过程四个方面对相关文献进行介绍和总结。最后,该文给出了几个未来的重点研究方向,包括跨视觉和语言模态的特征对齐、自动化评价指标的设计以及多样化图像描述生成。

http://jcip.cipsc.org.cn/CN/abstract/abstract2995.shtml

成为VIP会员查看完整内容
64

相关内容

图像描述生成(Image Caption)是一个融合计算机视觉、自然语言处理和机器学习的综合问题,它类似于翻译一副图片为一段描述文字。该任务对于人类来说非常容易,但是对于机器却非常具有挑战性,它不仅需要利用模型去理解图片的内容并且还需要用自然语言去表达它们之间的关系。除此之外,模型还需要能够抓住图像的语义信息,并且生成人类可读的句子。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
50+阅读 · 2021年1月19日
专知会员服务
83+阅读 · 2021年1月7日
专知会员服务
112+阅读 · 2020年12月9日
多模态视觉语言表征学习研究综述
专知会员服务
186+阅读 · 2020年12月3日
专知会员服务
37+阅读 · 2020年8月19日
实体关系抽取方法研究综述
专知会员服务
174+阅读 · 2020年7月19日
基于视觉的三维重建关键技术研究综述
专知会员服务
154+阅读 · 2020年5月1日
 图像内容自动描述技术综述
专知会员服务
84+阅读 · 2019年11月17日
领域知识图谱研究综述
专知
15+阅读 · 2020年8月2日
【综述】生成式对抗网络GAN最新进展综述
专知
57+阅读 · 2019年6月5日
无参考图像质量评价研究进展综述
人工智能前沿讲习班
46+阅读 · 2019年2月15日
基于深度学习的NLP 32页最新进展综述,190篇参考文献
人工智能学家
27+阅读 · 2018年12月4日
Generating Fact Checking Explanations
Arxiv
9+阅读 · 2020年4月13日
Arxiv
5+阅读 · 2019年4月25日
VIP会员
相关VIP内容
专知会员服务
50+阅读 · 2021年1月19日
专知会员服务
83+阅读 · 2021年1月7日
专知会员服务
112+阅读 · 2020年12月9日
多模态视觉语言表征学习研究综述
专知会员服务
186+阅读 · 2020年12月3日
专知会员服务
37+阅读 · 2020年8月19日
实体关系抽取方法研究综述
专知会员服务
174+阅读 · 2020年7月19日
基于视觉的三维重建关键技术研究综述
专知会员服务
154+阅读 · 2020年5月1日
 图像内容自动描述技术综述
专知会员服务
84+阅读 · 2019年11月17日
相关资讯
领域知识图谱研究综述
专知
15+阅读 · 2020年8月2日
【综述】生成式对抗网络GAN最新进展综述
专知
57+阅读 · 2019年6月5日
无参考图像质量评价研究进展综述
人工智能前沿讲习班
46+阅读 · 2019年2月15日
基于深度学习的NLP 32页最新进展综述,190篇参考文献
人工智能学家
27+阅读 · 2018年12月4日
微信扫码咨询专知VIP会员