考虑到在实际的语料中,与视觉内容相关的词汇一般与体现语言风格相关的词汇共存,使得风格化记忆模块难以学习到干净的风格化语料。我们在本文中提出一种句子分解算法,分离与视觉内容相关的部分以及与语言风格相关的部分。 二.方法 方法概览 MemCap 模型包含风格化记忆模块 M,风格化图像描述模块 C,图片场景图生成器 E,句子场景图生成器 F 以及风格化句子分解模块 P,如图 3 所示。风格化记忆模块将场景图作为输入,检索与场景图有关的风格化知识 m。这部分知识与场景图送入图像描述模块 C 中,生成最终的描述。 由于本文方法只使用未配对的风格化句子进行微调,我们将风格化的句子分解为与内容相关的部分 W_c 和与风格相关的部分 W_s,并将 W_c 转换为场景图,作为 M 和 C 的输入。同时,W_s 被用于更新 M 中存储的风格化知识。M 与 C 通过端到端的方式进行训练。在测试时,将图片转换为场景图,作为 M 和 C 的输入。
参考文献:[1] Rennie, Steven J., et al. "Self-critical sequence training for image captioning." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.[2] Anderson, Peter, et al. "Bottom-up and top-down attention for image captioning and visual question answering." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.[3] Guo, Longteng, et al. "MSCap: Multi-Style Image Captioning With Unpaired Stylized Text." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.[4] Chen, Tianlang, et al. "``Factual''or``Emotional'': Stylized Image Captioning with Adaptive Learning and Attention." Proceedings of the European Conference on Computer Vision (ECCV). 2018.[5] Gan, Chuang, et al. "Stylenet: Generating attractive visual captions with styles." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.