Image retrieval systems help users to browse and search among extensive images in real-time. With the rise of cloud computing, retrieval tasks are usually outsourced to cloud servers. However, the cloud scenario brings a daunting challenge of privacy protection as cloud servers cannot be fully trusted. To this end, image-encryption-based privacy-preserving image retrieval schemes have been developed, which first extract features from cipher-images, and then build retrieval models based on these features. Yet, most existing approaches extract shallow features and design trivial retrieval models, resulting in insufficient expressiveness for the cipher-images. In this paper, we propose a novel paradigm named Encrypted Vision Transformer (EViT), which advances the discriminative representations capability of cipher-images. First, in order to capture comprehensive ruled information, we extract multi-level local length sequence and global Huffman-code frequency features from the cipher-images which are encrypted by stream cipher during JPEG compression process. Second, we design the Vision Transformer-based retrieval model to couple with the multi-level features, and propose two adaptive data augmentation methods to improve representation power of the retrieval model. Our proposal can be easily adapted to unsupervised and supervised settings via self-supervised contrastive learning manner. Extensive experiments reveal that EViT achieves both excellent encryption and retrieval performance, outperforming current schemes in terms of retrieval accuracy by large margins while protecting image privacy effectively. Code is publicly available at \url{https://github.com/onlinehuazai/EViT}.
翻译:图像检索系统帮助用户实时浏览和搜索广泛的图像。 随着云计算的增加, 检索任务通常外包给云服务器。 但是, 云情景带来了保护隐私的艰巨挑战, 因为云服务器无法完全信任。 为此, 开发了基于图像加密的隐私保存图像检索计划, 首先从密码图像图像图像中提取功能, 然后根据这些功能建立检索模型。 然而, 多数现有方法提取浅色特性, 设计了微小的检索模型, 导致对密码图像模拟的表达性不够。 在本文件中, 我们提出了一个名为加密视野变换器( EViot) 的新模式, 用于提高加密图像服务器的歧视性表达能力。 首先, 为了获取全面的有规则的信息, 我们从加密图像中提取了多层次的本地序列和全球赫夫曼代码频率功能。 在 JPEG 压缩过程中, 我们设计基于视觉变换码的检索模型模型模型, 与多级图像变换码变换码变异模型( EViet) (EViveration Fevelrial Trev) (Ephyal realitional realitional realition) 等新模式结合,, 两种适应性数据变校正变校正的系统, 的校正校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 改进 校正 校正 校正 校正 校正 校正 校正 校正 校正 校 校正 校 校正 校正 校 校 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 方法 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正 校正