了“全球人工智能”拥有十多万AI产业用户,10000多名AI技术专家+2000多名AI创业企业高管+1000多名AI产业投资者核心用户来自:北大,清华,中科院,麻省理工,卡内基梅隆,斯坦福,哈佛,牛津,剑桥......以及谷歌,腾讯,百度,脸谱,微软,阿里,海康威视,英伟达......等全球名校和名企。
大家应该都很清楚,诸如图像这样的具有空间结构的输入,是不能用标准的Vanilla LSTM来进行简单建模的。卷积神经网络长期短期记忆网络或简称CNN LSTM,它是LSTM架构,是专门为诸如图像或视频等序列预测问题而设计的LSTM架构。
在这篇文章中,你将了解更多关于用以序列预测的CNN LSTM架构的详细信息。阅读本文之后,你将会知道:
用于序列预测的CNN LSTM模型架构的发展。
适合用CNN LSTM模型进行处理的问题类型的示例。
在Python中如何用Keras实现CNN LSTM架构。
一切准备就绪,开始启程吧。
CNN LSTM架构
CNN LSTM架构涵盖了使用卷积神经网络(CNN)层对输入数据结合LSTM架构进行特征提取,以支持序列预测。CNN LSTM被开发用于视觉时间序列预测问题和从图像序列(例如视频)生成文本描述的应用。具体来说,问题包括以下几种:
行为识别:生成图像序列中演示的行为的文本描述。
图像描述:生成单个图像的文本描述。
视频描述:生成图像序列的文本描述。
[CNN LSTM]是一类在空间和时间上都具有一定深度的模型,它可以灵活地应用于一系列涉及顺序输入和输出的视觉任务。
2015《用于视觉识别和描述的长期循环卷积网络》https://arxiv.org/abs/1411.4389
其实这种架构最初被称为长期循环卷积网络或LRCN模型,尽管在此次课程中,我们将使用更通用的名称“CNN LSTM”来指代使用CNN作为前端的LSTM。该架构主要用于生成图像的文本描述任务。其中最关键的是CNN的使用,它要在一个具有挑战性的图像分类任务中进行预训练,而这个任务被重新定义为用于标题生成问题的特征提取器。
将CNN用作图像“编码器”是很自然的,首先对它进行预训练,以用于图像分类任务,并使用最后一个隐藏层作为生成句子的RNN解码器的输入。
2015《展示并讲述:神经图像字幕生成器》https://arxiv.org/abs/1411.4555
除此之外,该架构还被用于语音识别和自然语言处理问题,其中CNN用作音频和文本输入数据中的LSTM特征提取器。这种架构非常适合于以下问题:
在其输入中具有空间结构,例如图像中的2维结构或像素,或者是句子、段落以及文档中的单词的1维结构。
在其输入中具有时间结构,例如视频中的图像顺序或文本中的单词,或者需要在文本描述中生成具有时间结构的输出,例如文本描述中的单词。
卷积神经网络长短期记忆网络的网络架构
火爆了!全球最火爆的人脸识别技术应用: FaceDance Challenge!