ACM MM 2022 | 首个针对跨语言跨模态检索的噪声鲁棒研究工作

会员服务 ·

ACM MM 2022 | 首个针对跨语言跨模态检索的噪声鲁棒研究工作

2022 年 10 月 17 日 PaperWeekly

©作者 | 李加贝

研究方向 | 多模态学习

论文标题：

Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning

文章链接：

https://arxiv.org/pdf/2208.12526.pdf

代码链接：

https://github.com/LiJiaBei-7/nrccr

虽然目前传统的跨模态检索工作已取得了巨大的进展，但由于缺少低资源语言的标注数据，这些工作通常关注于高资源语言（比如英语），因此极大地限制了低资源语言在该领域的发展。为了解决这一问题，作者针对跨语言跨模态检索任务（CCR）展开了研究，该任务旨在仅使用人工标注的视觉-源语言（如英语）语料库对模型进行训练，使其可以适用于其他目标语言（非英语）进行评估【如下图所示】。

在这篇论文中，作者旨在借助机器翻译来生成伪视觉-目标语言对进行跨语言迁移，来缓解人工标注多语言视觉-语言语料库困难的问题。虽然机器翻译可以快速的处理大量的文本语言转换，但是其准确性并不能得到保证，因此在翻译过程中将会引入大量的噪声，导致翻译的目标语言句子并不能准确的描述其对应的视觉内容【如下图所示】。

然而之前的基于机器翻译的 CCR 工作大多忽略了这个问题，它们通常使用大规模的预训练模型在通过机器翻译得到的大规模多语言视觉-语言语料库上进行大规模预训练，并且只关注于视觉-目标语言数据对之间的对齐。然而直接在这种噪声数据对上应用跨模态匹配将会严重影响检索性能，神经网络模型有很强的能力来拟合这种给定的（噪声）数据。为了解决这个问题，作者提出了一个噪声鲁棒学习方法来缓解机器翻译中所引入的噪声问题，该论文是首个关注于 CCR 任务中由机器翻译所引入噪声问题的工作。

方法

▲ 模型框架图

作者首先引入了其基线模型，继而引入噪声鲁棒学习方法。

1.1 基线模型（Basic Model）

视觉编码器：给定一个视频，使用预训练的 2D CNN 来提取视频特征序列，然后输入到 Transformer 块中，来增强帧间交互，最终得到一个视频特征向量。

文本编码器：作者设计了一个双分支编码器，分别又一个源语言分支和一个目标语言分支组成。每个语言分支都包含一个 Transformer block 和一个预训练的 mBERT backbone，将源语言和目标语言分别输入到对应的分支中，得到对应的源语言句子特征和目标语言句子特征。

将以上三个特征分别映射到多语言多模态空间中：

作者使用了传统的跨模态检索任务中常用的 triplet ranking loss 进行约束：

1.2 噪声鲁棒的特征学习（Noise-Robust Representation Learning）

基线模型只是简单的进行了跨语言跨模态对齐，并没有对噪声进行处理，接下来作者提出了多视图自蒸馏来生成 soft pseudo-tagets 以监督目标语言分支的学习。

作者首先借助于 cross-attention 来生成一个相对干净的中间目标语言句子特征，通过将源语言 token 序列作为 query，利用 cross-attenion 固有的性质，对目标语言 token 序列进行过滤。

如图 3 所示，错误的单词（用红色标记）和源语言单词之间的注意权重被分配了低值。其过程表示如下：

1.3 多视角自蒸馏（Multi-view self-distillation）

作者引入了基于相似度视角和基于特征视角的自蒸馏损失。

基于相似度视角的自蒸馏（Similarity-based view）：

给定（V, S, T），默认其两两之间互为匹配对，忽视翻译得到的目标语言句子 T 中所包含噪声的事实。对此，作者将 cross-attention 所生成的特征作为 teacher，使用特征和视觉特征计算计算得到 soft pseudo-targets 作为目标语言分支的监督。

▲ soft pseudo-targets示例图

基于特征视角的自蒸馏（Feature-based view）：

通过 l1 范式实现特征蒸馏：

1.4 循环语义一致性（Cycle Semantic Consistency）

受无监督机器翻译的启发，作者引入了循环语义一致性模块，提高源语言分支从噪声中提高原始语义信息的能力，增加源语言分支的鲁棒性。

1.5 语言无关特征学习（Language-agnostic Representation Learning）：

考虑到特定语言特征缺少跨语言迁移能力，作者通过对抗学习的方式来训练模型学习语言无关特征。构建一个分类器 F 作为判别器来分辨输入特征是源语言还是目标语言，判别器和特征编码器相互博弈：

1.6 训练和测试

最终的目标函数为：

测试时作者采用了目标语言和翻译的源语言（由于测试时只使用目标语言）加权和的方式：

实验

作者在三个跨语言跨模态数据集上进行了实验对比，其中为两个多语言视频文本检索数据集（VATEX 和 MSRVTT-CN），一个多语言图像文本检索（Multi30K）；其中 MSRVTT-CN 是作者对 MSRVTT 进行中文扩展得到的多语言数据集。

▲ 在VATEX数据集上进行SOTA对比实验

▲ MSRVTT-CN上性能对比

2.1 鲁棒分析实验

为了进一步证明模型对抗翻译噪声的鲁棒能力，作者通过增加翻译次数以进一步增加训练数据的噪声程度，如图所示，在经过多次翻译后，基线模型的性能明显下降，而本文所提出的模型性能更加的稳定，验证了噪声鲁棒特征学习的有效性。

将目标语言句子根据句子长度进行分组，作者假设越长的句子，翻译越困难，因此包含的噪声可能更多。结果表明，本文所提出的模型和基线模型的性能差距随着句子长度的增加而增加。

2.2 t-SNE可视化实验

作者随机从 VATEX 的中文测试集中随机选择 20 个样本，其中每个样本包含 10 个对应的英语翻译句子和一个对应的视频。如图所示，NRCCR 的类内特征更加的紧凑，表明了模型更好的学习到了跨语言跨模态对齐。

2.3 消融实验

结果表明，使用两个视角，性能得到了提升，表明基于相似度视角和基于特征视角彼此互补。引入循环语义一致性后，实现了额外的性能收益。此外，还表明了语言无关特征学习的重要性。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

噪声

关注 0

中文预训练模型研究进展

专知会员服务

78+阅读 · 2022年7月21日

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

专知会员服务

21+阅读 · 2022年4月21日

【CVPR2022】弱监督目标定位建模为领域适应

专知会员服务

17+阅读 · 2022年3月4日

AAAI 2022 | 基于预训练-微调框架的图像差异描述任务

专知会员服务

18+阅读 · 2022年2月26日

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

专知会员服务

16+阅读 · 2021年11月14日

【ICCV2021】多层次对比学习的跨模态检索方法

专知会员服务

23+阅读 · 2021年10月24日

【ACMMM2021】密集对比视觉语言预训练

专知会员服务

13+阅读 · 2021年10月11日

【CVPR2021】一种基于知识蒸馏的弱监督图像文本匹配模型

专知会员服务

35+阅读 · 2021年4月8日

【ACM MM2020-计算所】基于多源语义嵌入的场景识别的广义零样本学习

专知会员服务

22+阅读 · 2020年9月5日

近期必读的5篇AI顶会CVPR 2020 GNN (图神经网络) 相关论文

专知会员服务

79+阅读 · 2020年3月3日

ACM MM 2022 Oral | PRVR：全新的文本到视频跨模态检索子任务

PaperWeekly

2+阅读 · 2022年10月24日

论文浅尝 | 弱监督下极简的视觉语言预训练模型

开放知识图谱

1+阅读 · 2022年9月26日

ACM MM 2022 | 基于GMM的多重prototype，助力UDA语义分割新SOTA

PaperWeekly

1+阅读 · 2022年9月7日

字节AI Lab提出的新多语言多模态预训练方法刷榜！已开源

PaperWeekly

0+阅读 · 2022年8月28日

中科院自动化所：最新视觉-语言预训练综述

PaperWeekly

3+阅读 · 2022年3月1日

从顶会论文看多模态预训练研究进展

专知

3+阅读 · 2021年12月24日

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

专知

2+阅读 · 2021年11月14日

VALSE 论文速览第22期：基于噪声鲁棒对比损失的部分视图对齐表示学习

VALSE

0+阅读 · 2021年10月30日

赛尔原创@ACL 2021 | 基于一致性正则的跨语言微调方法

哈工大SCIR

0+阅读 · 2021年6月22日

微软亚洲研究院提出多语言通用文档理解预训练模型LayoutXLM

微软研究院AI头条

2+阅读 · 2021年6月1日

基于非监督决策树的模糊图割模型的彩色图像分割研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于神经网络的跨语言实体链指研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于稀疏理论和图Laplacian矩阵的图像去噪理论与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于稀疏表示的单幅图像联合盲复原及识别

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

面向拥挤监控场景的异常事件检测技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于翻译学习和核方法的中文模糊限制信息检测研究

国家自然科学基金

2+阅读 · 2012年12月31日

跨语言信息检索中的机器翻译研究

国家自然科学基金

2+阅读 · 2011年12月31日

基于语义的图像合成

国家自然科学基金

0+阅读 · 2011年12月31日

基于潜在语义对偶空间的跨语言信息检索理论和算法研究

国家自然科学基金

1+阅读 · 2009年12月31日

Interaction Visual Transformer for Egocentric Action Anticipation

Arxiv

0+阅读 · 2022年11月25日

Cross-Modal Discrete Representation Learning

Arxiv

18+阅读 · 2021年6月10日

Data Augmentation using Pre-trained Transformer Models

Arxiv

17+阅读 · 2020年3月4日

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

Arxiv

15+阅读 · 2020年2月28日

Meta Learning for End-to-End Low-Resource Speech Recognition

Arxiv

20+阅读 · 2019年10月26日

Aspect-based Sentiment Classification with Aspect-specific Graph Convolutional Networks

Arxiv

11+阅读 · 2019年9月8日

CAN-NER: Convolutional Attention Network forChinese Named Entity Recognition

Arxiv

16+阅读 · 2019年4月3日

Learning Embedding Adaptation for Few-Shot Learning

Arxiv

17+阅读 · 2018年12月10日

Multi-pseudo Regularized Label for Generated Samples in Person Re-Identification

Arxiv

12+阅读 · 2018年1月29日

Weakly Supervised One-Shot Detection with Attention Siamese Networks

Arxiv

14+阅读 · 2018年1月12日

VIP会员