从视觉到文本: 图像描述生成的研究进展综述 - 专知

会员服务 ·

0

从视觉到文本: 图像描述生成的研究进展综述

2020 年 12 月 24 日 专知

摘要近年来,跨模态研究吸引了越来越多学者的关注,尤其是连接视觉和语言的相关课题。该文针对跨视觉和语言模态研究中的核心任务——图像描述生成,进行文献综述。该文从基于视觉的文本生成框架、基于视觉的文本生成研究中的关键问题、图像描述生成模型的性能评价和图像描述生成模型的主要发展过程四个方面对相关文献进行介绍和总结。最后,该文给出了几个未来的重点研究方向,包括跨视觉和语言模态的特征对齐、自动化评价指标的设计以及多样化图像描述生成。

http://jcip.cipsc.org.cn/CN/abstract/abstract2995.shtml

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“图像描述” 可以获取《从视觉到文本: 图像描述生成的研究进展综述》专知下载链接索引

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

1

相关内容

图像描述生成研究进展

专知会员服务

71+阅读 · 2021年3月29日

图像修复研究进展综述

专知会员服务

64+阅读 · 2021年3月9日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知会员服务

195+阅读 · 2020年12月3日

【复旦大学】从视觉到文本: 图像描述生成的研究进展综述

专知会员服务

80+阅读 · 2020年9月10日

图像内容自动描述技术综述

图像内容自动描述技术综述

专知会员服务

88+阅读 · 2019年11月17日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

时空序列预测方法综述

时空序列预测方法综述

专知

22+阅读 · 2020年10月19日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

基于深度学习的多标签生成研究进展

基于深度学习的多标签生成研究进展

专知

4+阅读 · 2020年4月25日

【综述】生成式对抗网络GAN最新进展综述

【综述】生成式对抗网络GAN最新进展综述

专知

61+阅读 · 2019年6月5日

Automatic Summarization of Natural Language

Arxiv

3+阅读 · 2018年12月18日

Image Captioning as Neural Machine Translation Task in SOCKEYE

Arxiv

3+阅读 · 2018年10月15日

Compositional GAN: Learning Conditional Image Composition

Compositional GAN: Learning Conditional Image Composition

Arxiv

31+阅读 · 2018年7月19日

R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering

Arxiv

7+阅读 · 2018年5月24日

Why not be Versatile? Applications of the SGNMT Decoder for Machine Translation

Arxiv

3+阅读 · 2018年3月20日

VIP会员

相关主题

相关VIP内容

图像描述生成研究进展

专知会员服务

71+阅读 · 2021年3月29日

图像修复研究进展综述

专知会员服务

64+阅读 · 2021年3月9日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知会员服务

195+阅读 · 2020年12月3日

【复旦大学】从视觉到文本: 图像描述生成的研究进展综述

专知会员服务

80+阅读 · 2020年9月10日

图像内容自动描述技术综述

图像内容自动描述技术综述

专知会员服务

88+阅读 · 2019年11月17日

热门VIP内容

开通专知VIP会员享更多权益服务

前沿人工智能趋势报告（Frontier AI Trends Report）

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

Andrej Karpathy：2025 年 LLM 年度回顾（2025 LLM Year in Review）

音退化问题：基于输入操控的鲁棒语音转换综述

相关资讯

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

时空序列预测方法综述

时空序列预测方法综述

专知

22+阅读 · 2020年10月19日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

基于深度学习的多标签生成研究进展

基于深度学习的多标签生成研究进展

专知

4+阅读 · 2020年4月25日

【综述】生成式对抗网络GAN最新进展综述

【综述】生成式对抗网络GAN最新进展综述

专知

61+阅读 · 2019年6月5日

相关论文

Automatic Summarization of Natural Language

Arxiv

3+阅读 · 2018年12月18日

Image Captioning as Neural Machine Translation Task in SOCKEYE

Arxiv

3+阅读 · 2018年10月15日

Compositional GAN: Learning Conditional Image Composition

Compositional GAN: Learning Conditional Image Composition

Arxiv

31+阅读 · 2018年7月19日

R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering

Arxiv

7+阅读 · 2018年5月24日

Why not be Versatile? Applications of the SGNMT Decoder for Machine Translation

Arxiv

3+阅读 · 2018年3月20日

大家都在搜

朱克爱德华兹家族

大型语言模型

蓝牙安全攻防

冷启动，0预算，如何借助分销裂变引爆私域用户增长？

微信扫码咨询专知VIP会员