cnn 输入一定是224*224吗?

如果用vggnet,输入为64*64,或者32*32大小的怎么办,需要tesize
关注者
13
被浏览
33,345
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

没有这种限制,先说结论,结论如下:输入一般为你的特征图的大小x2的指数次方,具体跟你网络设计有关。

更为一般的说法为:具体大小和你提取特征所采用的主干网络以及输入图像的原始尺寸都有关联,以以下经典的分类网络为例说明:

1) 从输入到卷积特征图feature map,就是进行信息抽象提取的过程,然后就经过全连接层/全局池化层的变换进行分类了,这个feature map的大小,可以是3x3,5x5,7x7等等。

解答1:在这些尺寸中,如果尺寸太小,那么信息就丢失太严重,如果尺寸太大,信息的抽象层次不够高,计算量也更大。这里选用7x7的大小作为特征图的大小。

2) 图像从大分辨率降低到小分辨率,降低倍数通常是2的指数次方,所以图像的输入一定是特征图大小x2的指数次方。

以ImageNet为代表的大多数分类数据集,图像的长宽在300分辨率左右。

解答2:如果我们要找一个7x2的指数次方,并且在300左右的尺寸作为网络输入,其中7x2的4次方=7x16=112,7x2的5次方等于7x32=224,7x2的6次方=448,与300最接近的就是224了。


另外,题目中那个叫resize。。。