【论文导读】2022年论文导读第七期

会员服务 ·

【论文导读】2022年论文导读第七期

2022 年 4 月 5 日 CCF多媒体专委会

论文导读

2022年论文导读第七期（总第四十七期）

目录

1	Learning Hierarchical Embeddings for Video Instance Segmentation
2	PIMNet: A Parallel, Iterative and Mimicking Network for Scene Text Recognition
3	Video Background Music Generation with Controllable Music Transformer
4	Co-Transport for Class-Incremental Learning
5	Visual Co-Occurrence Alignment Learning for Weakly Supervised Video Moment Retrieval

Learning Hierarchical Embeddings for Video Instance Segmentation

作者：秦者云¹，卢宪凯¹，聂秀山²，甄先通³，尹义龙¹

单位：¹山东大学，²山东建筑大学，³阿姆斯特丹大学

邮箱：

zyqin@mail.sdu.edu.cn

carrierlxk@gmail.com

niexsh@hotmail.com

x.zhen@uva.nl

ylyin@sdu.edu.cn

论文：

https://dl.acm.org/doi/abs/10.1145/3474085.3475342

1. 引言

视频实例分割（VIS）涉及跟踪、分割和分类视频序列中的所有实例。现有的工作大都遵循判别式的检测-跟踪范式。然而，这些方法并不是端对端、可训练的，需要设计和微调多个独立的子模型，这种解决方案即繁琐，其计算代价也十分昂贵。并且由于视频中存在着天然干扰因素，如低分辨率和运动模糊，这些方法经常无法鲁棒的定位到新的实例。本文从以下两个方面着手解决这些问题：(a)：本文提出了一个层次化变分贝叶斯VIS框架：HEVis，在一个前向传播中跨越空间和时间来分割和跟踪实例，以学习目标和背景的有效表示；(b)：本文引入一个基于因式分解的条件流（conditional flow）来细化外观特征分布，以获得每个实例更鲁棒的特征表示。

图1 层次化变分贝叶斯VIS框架

2. 方法概述

图2为本文所提HEVis算法的框架图。HEVis的目标是由粗到细的层次化的方式推断每个实例的掩码，其过程包括粗嵌入学习和细化学习。(1) 粗嵌入学习：本文将所有实例的运动位置建模为一个三维时空体，假设每个位置的像素的后验类概率符合一个均值为，协方差矩阵为Σ的多元高斯分布。对于每一个像素来说，可以利用其嵌入值（附加一个可学习的偏移量），通过高斯分布的标准概率密度函数来计算属于某个实例的概率。(2) 细化学习：学习每个实例的潜在外观嵌入值来细化粗嵌入学习中得到的嵌入值。本文引入一个基于因式分解的条件流来优化外观嵌入值。

图2 HEVis算法框架图

3. 实验结果

本文分别在视频实例分割（VIS）和无监督视频目标分割（UVOS）任务上做了相关实验。实验结果可以看出所提出方法获得了最优的表现，并验证了其有效性。

表1 YouTube-VIS19数据集上VIS任务的算法性能比较

表2 DAVIS数据集上UVOS任务的算法性能比较

图3 YouTube-VIS19和DAVIS数据集上可视化结果

PIMNet: A Parallel, Iterative and Mimicking Network for Scene Text Recognition

作者：乔峙^1,2，周宇^1,2*，魏谨³，王威^1,2，张远³，蒋宁⁴，王洪斌⁴，王伟平¹

单位：¹中国科学院信息工程研究所，²中国科学院大学网络空间安全学院，³中国传媒大学，⁴马上消费金融

邮箱：

qiaozhi@iie.ac.cn;

zhouyu@iie.ac.cn;

weijin@cuc.edu.cn;

wangwei3456@iie.ac.cn;

yzhang@cuc.edu.cn;

ning.jiang02@msxf.com;

hongbin.wang02@msxf.com;

wangweiping@iie.ac.cn

论文：

https://doi.org/10.1145/3474085.3475238

代码：

https://github.com/Pay20Y/PIMNet

*通讯作者

目前，场景文本识别因其广泛的应用而受到越来越多的关注。大多数最先进的方法采用基于注意机制的编码器-解码器框架，通过自回归的方式从左到右生成文本。尽管性能较好，但由于采用逐个解码策略，速度有限。与自回归模型相比，非自回归模型预测结果的并行推理时间要短得多，但其准确性大大低于自回归模型。在本文中，我们提出了一个并行、迭代和模仿学习的网络(PIMNet)来平衡准确性和效率，网络结构如图1所示。具体来说，PIMNet采用并行注意机制更快地预测文本，采用基于“简单优先”策略的迭代生成机制使预测更准确。在每次迭代中，上下文信息将被充分地探索。为了提高隐藏层的学习能力，我们在训练阶段采用模仿学习，增加一个自回归解码器分支，并行解码器来拟合自回归解码器隐藏层的输出。由于两个解码器之间共享骨干网络，所提出的PIMNet可以不经过预训练就进行端到端训练。在推理过程中，为了更快的速度，自回归解码器的分支被删除。在公共基准上的广泛实验证明了PIMNet的有效性和效率。

图1 PIMNet并行迭代模仿解码网络结构

图2展示了“简单优先”策略的解码过程。在初始阶段，所有的字符预测位置设置为<MASK>占位符。在每次迭代过程中，所有标记为<MASK>的位置将被预测，并且置信度高的预测将在下一轮迭代中保留。低置信度的字符将被<MASK>替换，并将在后面的迭代中基于已获得的字符再次重新预测。

图2 “简单优先”解码的过程

表1将PIMNet与之前的方法在准确率和效率上进行了对比。与其他非自回归方法相比，本研究提出的方法 PIMNet 在七个数据集上达到了六个最优准确率。与自回归的方法相比，PIMNet可以达到相近的准确率，同时更快的速度。

表1 PIMNet与其他方法在公开数据集上的性能比较

表2分析了迭代次数对性能带来的影响。一次迭代即为完全并行的预测，随着迭代次数的增加，准确率会逐步提升。当迭代次数到达30次时，整个模型类似于自回归解码。出于速度与准确率平衡的考虑，最终实现时采用5次迭代的设定。这同样证明了本模型的灵活性，仅需要调整迭代次数这一个超参数，即可以在自回归和非自回归解码之间进行切换。

表2 不同迭代次数下PIMNet精度和速度比较

图3展示了“简单优先”的预测示例，其中绿色的字符指在每次迭代中置信度较高的预测。红色的字符指在每次迭代中置信度相对较低的预测。不同于传统的从左向右的解码方式，“简单优先”在每次预测时首先保留置信度最高的几个预测结果，这种方式更适合某些特定的情况，如开头的字符较难识别时。

图3 “简单优先”解码示例

Video Background Music Generation with Controllable Music Transformer

作者：狄尚哲^1,*，姜泽仁^1,*，刘偲^1†，王肇凯¹，朱乐岩¹，何泽欣¹，Hongming Liu²，颜水成³

单位：¹北京航空航天大学，²Charterhouse School，³Sea AI Lab

邮箱：

dishangzhe@buaa.edu.cn

论文：

https://arxiv.org/abs/2111.08380

代码：

https://github.com/wzk1015/video-bgm-generation/

网页：

https://wzk1015.github.io/cmt/

1. 引言

视频是记录生活、表达观点、娱乐消费的绝佳媒介。近年来，越来越多的人开始拍摄和制作视频。为使视频更具吸引力，人们通常会给视频配上背景音乐，但这通常会花费大量时间，以挑选合适的音乐，并对视频素材剪辑，使其与音乐的节奏契合，还可能遇到音乐版权问题。因此，为视频生成背景音乐成为一个具有广泛应用前景的任务。但在此之前，尚未有针对这一任务的有效研究结果。虽然在音乐生成领域已经有了一些研究工作，但这些工作均未考虑视频信息。为了解决这个问题，我们提出一种新的音乐表示形式，并基于这种表示形式设计了音乐生成模型，实现了较好的视频背景音乐生成效果。

2. 方法概述

图1 方法整体示意图

如图1所示，我们根据音乐理论与专家建议，建立了音乐与视频画面在节奏上的三种联系，使视频画面的运动速度与音乐的节奏速度、视频画面的显著变化与音乐的显著节拍、视频的开始/结束与音乐的开头/结尾关联起来，并根据视频库与音乐库上的统计结果决定具体的数值对应关系。之后，我们提出了一个可控音乐生成模型 (Controllable Music Transformer，简称CMT)，能够上述关系对音乐节奏进行局部控制，并根据用户指定的音乐风格和乐器类型进行全局控制。

图2 模型框架图

如图2所示，在训练时，CMT 只需要音乐数据，目标是根据输入的音乐特征重建该音乐。在测试时，CMT会将从视频中提取出的视觉特征自动转换为音乐特征，生成与输入视频契合的背景音乐。

3. 实验结果

音乐具有较强的主观性，因此，本文同时进行了客观实验与主观实验，衡量生成结果的音乐性及与视频的契合程度。其中，客观评价指标衡量生成音乐在音高、局部节奏和全局结构性上与真实音乐的相似程度，越相似说明生成结果越自然。主观实验则要求参与者综合评价生成结果的音乐性及与视频的契合程度。考虑到视频的多样性，我们选取的测试视频包含经过剪辑的、未经剪辑的、动漫视频以及舞蹈视频。主客观的双重实验说明，本方法生成的音乐比较自然，与视频的配合度也令人满意。论文主页上可以观看生成demo：https://wzk1015.github.io/cmt/

Co-Transport for Class-Incremental Learning

基于协同运输的类别增量学习算法

作者：周大蔚，叶翰嘉，詹德川

单位：计算机软件新技术国家重点实验室（南京大学）

邮箱：

zhoudw@lamda.nju.edu.cn,

yehj@lamda.nju.edu.cn,

zhandc@lamda.nju.edu.cn

论文：

https://dl.acm.org/doi/10.1145/3474085.3475306

代码：

https://github.com/zhoudw-zdw/MM21-Coil

https://github.com/G-U-N/PyCIL

项目主页：

http://www.lamda.nju.edu.cn/zhoudw/file/MM21/MM21_project.html

1 引言

经典的学习系统往往被部署在封闭环境中，学习模型可以利用预收集的数据集对固定类别的数据进行建模。然而，在开放动态环境中这种假设难以满足——新的类别会随时间不断增长，模型需要在数据流中持续地学习新类。例如，在电商平台中，每天都会新增多种产品；在社交媒体上，新的热点话题层出不穷。因此，类别增量学习模型需要在学习新类的同时不遗忘旧类别的特征。本文观察到在增量学习的过程中，新类和旧类间存在相关性，因此可以利用它来进一步地辅助模型在不同阶段的学习。因此，本文提出利用协同运输辅助类别增量学习过程，并基于类别间的语义相关性将不同的增量学习阶段联系起来。协同运输分为两方面：向前运输（prospective transport）旨在利用最优运输获得的知识增广分类器，作为新类分类器的初始化；向后运输（retrospective transport）旨在将新类分类器转化为旧类分类器，并防止灾难性遗忘。因此模型的知识可以在增量学习过程中双向流动，从而在学习新类的同时保持对旧类的判别能力。

图1 类别在特征空间的相似关系可以被迁移到分类器空间中，并指导分类器的迁移过程。

图2 本文所提出COIL的训练过程

2 方法概述

如图1所示，本文尝试基于类别间的语义关系进行分类器迁移。例如，老虎和猫很相似，因此用于判别二者的特征也高度重合，甚至可以重用大量老虎的分类器权重作为类别猫的分类器初始化；老虎和斑马不相似，因此用于判别二者的特征也无法重用。本文考虑在统一的嵌入空间下度量类别中心的相似关系，并以此构造类别间的距离矩阵。之后，借助最优运输算法，将类别之间的距离作为运输代价，最小化所有新类和旧类集合之间的分类器重用代价，从而基于类别之间的语义关系指导分类器重用。最后，如图2所示，分别将旧类分类器复用为新类分类器，和将新类分类器复用为旧类分类器，构造两个不同方向的知识迁移，并以此设计了损失函数用于约束模型，防止灾难性遗忘。

图3 实验结果（增量学习过程中的分类器准确率）

图4 实验结果（分类边界可视化）

3 实验结果

本文提出的COIL方法在多个基准和多媒体数据集上进行了测试。如图3所示，实验结果表明COIL具有更好的分类性能与更少的灾难性遗忘。图4的分类边界可视化表明，利用语义指导的分类器重用能够有效地迁移分类器，甚至无需训练也可以构造有效的分类边界。

Visual Co-Occurrence Alignment Learning for Weakly Supervised Video Moment Retrieval

基于视觉一致性对齐的弱监督视频片段定位

作者：王铮^1,2，陈静静^1,2，姜育刚^{1,2 *}

单位：¹复旦大学计算机科学技术学院，²上海市智能信息处理重点实验室

邮箱：

zhengwang17@fudan.edu.cn

chenjingjing@fudan.edu.cn

ygj@fudan.edu.cn

论文：

https://dl.acm.org/doi/10.1145/3474085.3475278

1. 引言

跨模态特征表示学习是跨模态检索，定位等多种任务的重要组成部分。现有的工作主要是在解决如何学习两种模态的统一表征空间并最大化语义对应的视频片段与文本在语义空间中的相似度。但是当监督信号存在噪声时，两种模态之间的特征不能很好得对齐。在图1展示的弱监督的视频片段定位任务中，当只有语义相关的成对的视频和文本训练数据而缺乏具体的片段对应关系时，视频和文本两种模态间的语义差异使得学习两者的对应关系变得困难。目前的视频特征通常是由预训练好的视频分类模型来提取，导致视频中不同帧之间的语义差异较小，使得将与查询文本对应的连续视频帧组成的视频片段与视频中的其他的部分区别开来难度变得较大。因此，如何在弱监督的设定下定位出未剪辑的视频中与查询语句相关的视频片段是一个有挑战的问题。

图1 弱监督视频片段定位任务

2. 方法概述

在本研究中，我们希望利用文本模态中样本的语义相似性，在对应的视觉模态内构建样本间的语义关联，以获得更有区分性的视觉特征用于跨模态特征表示学习。但由于视频内不同的片段与文本之间没有准确的监督信号，正负样本只能在不同视频的片段之间进行构建。我们观察到如果不同的视频中存在语义相关的相似的视频片段，例如相似的动作，这些视频通常被相似的句子所描述。我们认为尽管这些片段来自不同的视频，这些相似的视频片段的视觉表征也应该较为相似。我们提出了一种基于视觉内容一致性的学习方法（Visual Co-Occurrence Alignment Learning，简称VCA）来对齐不同视频中语义相关的片段之间的视觉特征。具体而言，我们通过在同一个训练批次中挖掘查询文本语义相似的视觉相似视频片段，并采用噪声对比损失进行视觉特征表示学习。噪声对比损失最大化相似视频片段之间的相似度，同时最小化与训练批次中的所有其他不相似视频片段之间的相似度，这是一种更稳健的学习特征表示的方式。由于在不同的训练批次中，视频片段可以与不同的语义相关视频片段匹配，因此模型可以挖掘出多个视频片段的正例，提高特征表示的泛化性。

图2展示了本研究所提出的模型框架，箭头表示模块之间的数据流动方向，其中来自损失函数的梯度可以通过蓝色箭头反向传播，但不能通过绿色箭头反向传播。其中包含三个模块，包括视觉语言特征表示学习模块、时序片段候选生成模块和视觉一致性对齐学习模块。视觉语言特征表示学习模块对视频和文本采用了Bi-LSTM来学习逐帧/逐字的特征表示。文本经过Bi-LSTM的编码后，又被输入到额外的单模态多头注意力机制以增强文本的表示能力。VCA模型中用一组跨模态的多头注意力机制来学习视频片段与文本的跨模态特征表示。跨模态的特征被输入到时序片段候选生成模块生成视频片段与文本的匹配分数，并通过分数来选择与给定的查询文本相似度最高的视频片段的时间区间。然后视觉一致性对齐学习模块利用句子之间的相似性来挖掘来自不同视频的视觉相关的视频片段以构造正例样本和负例样本进行对比学习。

图2 VCA模型结构图

3. 实验

我们在两个跨模态视频片段定位数据集ActivityNet Caption和Charades-STA上进行了实验，Charades-STA上的实验结果如表1所示。实验表明我们的方法通过挖掘跨模态的语义关联以及强化视觉监督信息能学习到更具辨别力和鲁棒性的特征表示用于跨模态定位。与弱监督方法相比，VCA模型能够准确地定位到部分视频片段且定位的区间与正确的区间的重合度较高。与全监督方法相比，VCA模型下虽然能较为准确地定位到视频片段所在的大致区域，但是对于视频片段的始末边界的定位精度并不高。

表1 VCA在Charades-STA 数据集上与其他方法的对比