转自:中国计算机学会
1 引言
随着计算机网络、社交媒体、数字电视和多媒体获取设备的快速发展,以图像和视频为代表的多媒体数据的生成、处理和获取变得越来越方便, 多媒体应用日益广泛,数据量呈现出爆炸性的增长,已经成为大数据时代的主要数据对象。如何在海量的图像大数据中以较小的时空开销准确地找到一幅感兴趣的图像,已经成为近年来多媒体和信息检索领域的重要研究热点。
基于内容的图像检索(Content-based Image Retrieval, CBIR)方法利用从图像提取的特征来进行检索。常用的图像特征主要有颜色、纹理和形状,包括局部特征和全局特征。局部特征是基于图像的某个区域提取的图像描述符,如尺度不变特征SIFT(Scale Invariant Feature Transform)。全局描述符基于整幅图像提取的描述符,如GIST。全局特征对图像的压缩率较高,但区分力不强;局部特征的区分力强,但数目太多,故而各种编码方法被提了出来,如BOF(Bag of Features,特征袋),Fisher向量 (Fisher Vectors, FV),以及VLAD (Vector of Locally Aggregated Descriptors)等。BOF,VLAD,FV等描述符通常继承了局部特征的部分不变性,如对平移、旋转、缩放、光照和遮挡等与语义相关不大的因素保持不变。
基于SIFT等图像描述符的检索效果相对于现有的其他特征明显改进,然而,SIFT存在如下几个问题:(1)缺乏空间几何信息; (2)缺乏颜色信息。(3)缺乏高层语义。为了丰富描述符的信息,通常将SIFT与其它的特征进行融合。如文献中,利用核来融合多种特征来形成语义属性特征,再与FV相串联以融合SIFT特征。文献则是通过图来融合SIFT与颜色特征,以提高检索的准确率。文献则是通过一个二维索引结构来融合SIFT与颜色特征。
原文链接:
https://mp.weixin.qq.com/s/63qUTMPDZmisjbgyCtfVKw