视频标题生成与描述是使用自然语言对视频进行总结与重新表达. 由于视频与语言之间存在异构特性, 其数据处理过程较为复杂. 本文主要对基于“编码-解码”架构的模型做了详细阐述, 以视频特征编码与使用方式为依据, 将其分为基于视觉特征均值/最大值的方法、基于视频序列记忆建模的方法、基于三维卷积特征的方法及混合方法, 并对各类模型进行了归纳与总结. 最后, 对当前存在的问题及可能趋势进行了总结与展望, 指出需要生成融合情感、逻辑等信息的结构化语段, 并在模型优化、数据集构建、评价指标等方面进行更为深入的研究.

成为VIP会员查看完整内容
42

相关内容

跨媒体分析与推理技术研究综述
专知会员服务
69+阅读 · 2021年3月11日
专知会员服务
60+阅读 · 2021年2月22日
专知会员服务
95+阅读 · 2021年2月6日
专知会员服务
65+阅读 · 2020年12月24日
专知会员服务
28+阅读 · 2020年12月16日
专知会员服务
36+阅读 · 2020年12月14日
多模态视觉语言表征学习研究综述
专知会员服务
191+阅读 · 2020年12月3日
专知会员服务
182+阅读 · 2020年11月23日
【文本分类大综述:从浅层到深度学习,35页pdf】
专知会员服务
187+阅读 · 2020年8月6日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
最新《多任务学习》综述,39页pdf
专知
28+阅读 · 2020年7月10日
深度多模态表示学习综述论文,22页pdf
专知
30+阅读 · 2020年6月21日
多模态深度学习综述,18页pdf
专知
48+阅读 · 2020年3月29日
能生成逼真图像的不只有 GAN
机器学习算法与Python学习
8+阅读 · 2019年6月6日
自然语言处理常识推理综述论文,60页pdf
专知
73+阅读 · 2019年4月4日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
Learning Blind Video Temporal Consistency
Arxiv
3+阅读 · 2018年8月1日
VIP会员
相关VIP内容
跨媒体分析与推理技术研究综述
专知会员服务
69+阅读 · 2021年3月11日
专知会员服务
60+阅读 · 2021年2月22日
专知会员服务
95+阅读 · 2021年2月6日
专知会员服务
65+阅读 · 2020年12月24日
专知会员服务
28+阅读 · 2020年12月16日
专知会员服务
36+阅读 · 2020年12月14日
多模态视觉语言表征学习研究综述
专知会员服务
191+阅读 · 2020年12月3日
专知会员服务
182+阅读 · 2020年11月23日
【文本分类大综述:从浅层到深度学习,35页pdf】
专知会员服务
187+阅读 · 2020年8月6日
相关资讯
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
最新《多任务学习》综述,39页pdf
专知
28+阅读 · 2020年7月10日
深度多模态表示学习综述论文,22页pdf
专知
30+阅读 · 2020年6月21日
多模态深度学习综述,18页pdf
专知
48+阅读 · 2020年3月29日
能生成逼真图像的不只有 GAN
机器学习算法与Python学习
8+阅读 · 2019年6月6日
自然语言处理常识推理综述论文,60页pdf
专知
73+阅读 · 2019年4月4日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
微信扫码咨询专知VIP会员