KDD20 | 图模型的信息融合专题

2020 年 11 月 8 日 深度学习自然语言处理

论文解读者：北邮 GAMMA Lab 硕士生王贞仪

1 引言

使用图模型解决问题时，面对实际环境中来源多样、形式复杂的数据，怎样将多种信息进行合理融合是一个值得关注的问题。本文将介绍两篇发表于KDD 2020的与图模型信息融合相关的工作。

第一篇工作为《HGMF: Heterogeneous Graph-based Fusion for Multimodal Data with Incompleteness》，该工作主要是基于异质图来解决多模态学习中在信息融合时会遇到的模态缺失问题。

第二篇工作为《Improving Conversational Recommender Systems via Knowledge Graph based Semantic Fusion》，该工作通过引入两个外部知识图谱丰富会话的语义信息，并通过互信息最大化弥补知识图谱间的语义鸿沟以提升会话推荐系统的表现。

2 HGMF: Heterogeneous Graph-based Fusion for Multimodal Data with Incompleteness

2.1 引言

多模态数据指的是从多种来源收集到的异构数据，例如人机交互场景中识别人类行为与情感时收集到的视觉、声音、语言数据；进行生物医学数据分析时收集的实验、基因序列以及医疗记录数据等。多模态数据能为实际问题提供相互补充的信息，对其进行学习具有很高的价值。多模态学习包含多模态数据融合、多模态情感分析以及图像问答等多个分支，本文关注的是多模态数据的融合任务，即将高度交互的多种模态数据进行合理融合后用作下游任务的决策。

然而，在实际的多模态数据收集过程中，由于传感器故障、数据损坏以及人为失误等多种原因，最终收集的数据常常存在不同程度的模态缺失。下图展示了一个具有模态缺失问题的三模态数据集。

模态缺失导致多模态数据在融合过程中会遇到以下三个技术挑战：

数据丢失降低了可用数据规模
样本具有不同程度的模态丢失，从而具有不一致的特征空间以及维度
有效的多模态融合需要同时学习模态内部特有以及多模态间的交互信息

总之，如何有效地将不完整并高度交互的多模态数据进行融合仍是一个极具挑战性的问题。与已有的基于不完整数据的直接删除或数据插补（data imputation）的解决方案不同的是，本文提出了一种通过构建异质图并在异质图嵌入的同时实现不完整多模态数据融合的方法。

2.2 模型

作者提出的Heterogeneous Graph-based Multimodal Fusion（HGMF）模型总览如下：

首先，作者将具有不完整模态的数据点构建成为一张异质超点图；接下来，作者通过一个基于图神经网络的学习框架，从高度交互的不完整多个模态中提取互补信息并将信息从不同子空间融合至一个统一的空间内。

2.2.1 异质超点图的构建

异质超点图中的节点具有不同数量以及维度的特征，被称为超点；一条边可同时连接 $k$ 个共享相似信息的数据点，被称为超边。

本文中，作者定义不完整模式为模态的一种组合方式。对于一个具有模态缺失问题的 $M$ 模态数据集，数据共可能存在 $(2^M-1)$ 种模态组合可能（排除空模态组合），即存在 $(2^M-1)$ 种不完整模式。

作者首先将数据集中的所有数据按照可用模态的不同组合方式分为 $B$ 块，同一块中的所有数据有相同的可用模态，一块中的两点 $v_i$ 、 $v_j$ 可按照以下公式计算正则化距离：

$d^{(b)}\left(v_{i}, v_{j}\right) \triangleq \frac{1}{\left|\mathcal{M}_{b}\right|} \sqrt{\sum_{m \in \mathcal{M}_{b}}\left\|u_{m}\left(\mathbf{x}_{i, m}\right)-u_{m}\left(\mathbf{x}_{j, m}\right)\right\|_{2}^{2} / Z_{m}}$

$\mathcal{M}_b$ 为当前块对应的模态集合， $Z_m$ 为正则化系数， $u_m$ 为模态 $m$ 的浅层特征。计算出当前块中两点之间的距离后，每个点与它的 $k$ 近邻通过超边连接。

将所有块分别构建得到的子图统一到一个图中，可以得到最终的异质超点图。注意到，在这样的一种构图方法中，两个数据点的部分公共模态特征相近就可能被超边连接，即缺失某种模态的数据点与含有该种模态的数据点可能被连接，从而在一定程度上减轻模态不完整的问题。

2.2.2 节点内编码器

每个超节点内部本身就包含高度交互的多模态内容，作者对这部分内容进行了编码。

作者首先使用CNN、Bi-LSTM或全连接网络等DNN对单模态特征进行嵌入，得到第 $i$ 个数据的模态 $m$ 嵌入为 $h_i^m$ 。接下来对每种模态组合 $S$ 计算其对应的模态交互表示。

若 $S$ 只含有一种模态，那么按如下方式计算模态特有信息：

$\begin{array}{l} \overline{\mathbf{h}}_{i}^{m}=g_{m}\left(\mathbf{h}_{i}^{m} ; \mathbf{U}_{m}, \mathbf{b}_{m}\right) \\ \mathbf{G}_{i}^{m}=\left(\mathbf{h}_{i}^{m}\right)\left(\mathbf{h}_{i}^{m}\right)^{T} \\ \mathbf{h}_{i}^{m, m}=g_{m, m}\left(\mathbf{G}_{i}^{m} ; \mathbf{U}_{m, m}, \mathbf{b}_{m, m}\right)+\overline{\mathbf{h}}_{i} \end{array}$

若 $S$ 含有多种模态，那么按如下方式计算模态交互信息：

$\begin{array}{l} \mathbf{C}_{i}^{S}=\otimes_{\mathbf{m} \in \mathbf{S}} \mathbf{h}_{i}^\mathbf{m} \\ \mathbf{h}_{i}^{S}=g_\mathbf{S}\left(\mathbf{C}_{i}^{S} ; \mathbf{U}_{\mathbf{S}}, \mathbf{b}_\mathbf{S}\right) \end{array}$

编码器通过对节点内部模态内部以及模态间交互的捕捉，将原始的模态特征集 $\tilde{x}_i$ 编码为新的特征集 $\tilde{h}_i$ 。

2.2.3 多折双层图注意力

由于不同节点的模态组合不同，上步编码之后得到的图仍是异质的。为实现异质图上的多模态信息融合，作者使用双层图注意力机制。首先聚合同种模式下邻居的信息，接着聚合不同模式信息。

模式内聚合

对于节点 $v_i$ ，定义其在模式 $q$ 下的邻居集合为 $N_q(i)$ ，分别使用(5)式和(6)式计算不同邻居在聚合过程中的注意力值大小以及 $v_i$ 在模式 $q$ 下的聚合表示：

模式间聚合

在聚合完模式内部信息之后，下一步是学习不同模式之间的关系，使得有不同模态缺失情况的数据点可以彼此学习，弥补缺失信息。聚合一个数据点的不同模式表示采用类似的注意力机制：

$\beta_{pq}$ 衡量了在节点 $v_i$ 上，模式 $q$ 对于模式 $p$ 的影响大小。节点 $v_i$ 在模式 $p$ 下更新后的表示如下：

堆叠多个以上双层图注意力层以实现异质多模态数据的层级交互与融合。

2.3 实验

实验包含3D物体识别以及情感识别两个任务，前者使用双模态数据集ModelNet40以及NTU进行，后者选择三模态数据集IEMONAP进行。为了模拟实际应用中可能出现的模态缺失情况，作者设置了多模态不完整比例 $\rho$ ，从数据集中随机删除数据，使得一个大小为 $N$ 的 $M$ 模态数据集中每种模式都对应 $N \times \rho(2^M-1)$ 个数据。

HGMF以及其他baseline在不同多模态不完整比例下进行3D物体识别实验的结果如下（CPL代表模态数据完整）：

三粒度情感识别的实验结果如下：

可以看到，HGMF在模态不完整比例较高时的表现与其他baseline相比得到了稳定提升，说明其确实具有缓解模态缺失问题的能力。

3 Improving Conversational Recommender Systems via Knowledge Graph based Semantic Fusion

3.1 引言

会话推荐系统（Conversation Recommender System, CRS）作为一种通过与用户的交互式对话生成高质量推荐商品的推荐系统，近年来越来越多地受到人们的关注。一个电影推荐场景下的CRS工作示例如下所示。

CRS需要推荐模块和对话模块的无缝整合。对话模块负责理解用户意图，并生成恰当的回复语句；而推荐模块负责学习用户偏好，并基于上下文内容为用户推荐高质量商品。目前针对CRS的研究中主要存在以下两个问题需要解决。

与传统推荐系统能够利用用户的历史交互序列或用户属性不同的是，CRS使用的对话数据缺少足够的上下文内容帮助精确理解用户偏好；
对话以自然语言的形式展示，而实际的用户偏好是反映在商品或实体上的。这两类数据信号间存在天然的语义鸿沟。

为解决上述问题，本文提出了基于知识图谱的语义融合模型KG-based Semantic Fusion（KGSF），通过引入面向词语的知识图谱ConceptNet和面向商品的知识图谱DBPedia丰富对话信息，并通过互信息最大化消除两个知识图谱之间的语义鸿沟。基于对齐之后的语义表示，作者还设计了KG增强的推荐模块用于生成精确推荐以及KG增强的对话模块用于在回复文本中生成信息量丰富的关键词或商品。

3.2 模型

3.2.1 编码外部知识图谱

编码面向word的知识图谱

本文使用GCN编码ConceptNet，每次更新时执行以下聚合操作：

编码面向item的知识图谱

Item间的关系比词语间要复杂的多，本文使用关注节点间关系的R-GCN来学习item的表示：

3.2.2 使用互信息最大化的知识图谱融合

消除word与item在表示上的语义鸿沟的核心思想在于使对话中共现的word和item在知识图谱中有相近的节点表示，这样能够统一两个语义空间中的数据表示。本文使用互信息最大化的方法达到以上目的。

给定两个变量 $X$ 和 $Y$ （本文中对应的是word和item的表示），它们之间的互信息定义如下：

其中， $D_{KL}$ 为 $X$ 和 $Y$ 联合分布和边缘分布点积之间的KL散度。

互信息的准确数值通常很难计算得到，通常转化为计算其下界，通过抬高互信息下界值来间接使得互信息最大化：

其中， $\mathbb{E}_{P}[g(x, y)]$ 和 $\mathbb{E}_{P}[g(x‘, y’)]$ 分别代表正样本对（共现word-item对）和负样本对（随机word-item对）的得分期望。得分函数如下：

由（4）式和（5）式，可以得到知识图谱嵌入模块的优化目标函数。

3.2.3 知识图谱增强的推荐模块

本文将对话经知识图谱嵌入并使用自注意力机制后得到的词向量 $\textbf{n}^{(c)}$ 和 $\textbf{v}^{(c)}$ 门控组合后获得用户的偏好表示：

商品被推荐给用户的概率为：

使用如下交叉熵损失函数学习参数：

其中， $L_{MIM}$ 为互信息最大化损失，用于微调知识图谱嵌入模块。

3.2.4 知识图谱增强的回复生成模块

本文沿用了Transformer的编码器-解码器架构，并对解码器进行了改进，在自注意力子层之后，又使用了两个融合知识图谱的注意力层：

其中， $MHA(\bf{Q},\bf{K},\bf{V})$ 代表多头注意力函数，而 $FFN(\bf{x})$ 则定义了一个全连接前向网络。

回复生成模块的损失函数如下：

3.2.5 参数学习

参数学习的完整流程如下：

首先通过互信息最大化对两个知识图谱的嵌入图神经网络进行预训练；接下来通过推荐item的交叉熵损失学习推荐模块参数并同时微调图神经网络参数；最后是回复生成模块参数的单独学习。

3.3 实验

本文在CRS数据集ReDial上分别进行推荐任务以及对话生成任务实验，并对比了KGSF与其他baseline的表现。

3.3.1 推荐任务

可以看到，不论是在常规推荐场景下还是冷启动（上下文未提及任何商品或属性）场景下，KGSF都能取得最优表现。

MIM模块在提升模型表现的同时，也能缩短模型的收敛时间。

3.3.2 对话生成任务

KGSF在对话生成任务上也能取得最优效果。

4 总结

本文介绍的第一篇工作研究如何将有模态缺失问题的多模态数据集构建成为异质图并在图上进行合理的多模态信息交互，达到相互补充与融合的效果；第二篇工作则在引入面向word以及面向item的两个知识图谱后，通过互信息最大化对齐这两个知识图谱在语义上的表示空间，从而提升会话推荐效果。

本期责任编辑：杨成

本期编辑：刘佳玮

下载一：中文版！学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套！

后台回复【五件套】

下载二：南大模式识别PPT

后台回复【南大模式识别】

推荐两个专辑给大家：

专辑 | 李宏毅人类语言处理2020笔记

专辑 | NLP论文解读

专辑 | 情感分析

整理不易，还望给个在看！

登录查看更多

相关内容

模态

关注 3

中科院计算所刘昊淼博士论文《面向物体语义理解的视觉表示学习》

专知会员服务

44+阅读 · 2020年12月4日

【KDD2020】图模型信息融合

专知会员服务

39+阅读 · 2020年10月15日

【KDD2020】深度图神经网络专题论文解读

专知会员服务

48+阅读 · 2020年9月20日

CIKM 2020 | 序列推荐预训练：基于互信息最大化的自监督学习

专知会员服务

46+阅读 · 2020年9月17日

KDD20 | 主题模型在图模型中的应用专题

专知会员服务

31+阅读 · 2020年9月13日

【KDD2020】利用多信号输入推断知识图谱中节点的重要性

专知会员服务

40+阅读 · 2020年9月10日

【KDD 2020】基于互信息最大化的多知识图谱语义融合

专知会员服务

43+阅读 · 2020年9月7日

【CIKM2020】学习表示解决可解释推荐系统

专知会员服务

49+阅读 · 2020年9月6日

KDD20 | AM-GCN：自适应多通道图卷积网络

专知会员服务

40+阅读 · 2020年8月26日

【KDD2020】自适应多通道图卷积神经网络

专知会员服务

121+阅读 · 2020年7月9日

KDD 2020 | 融合多视图行为信息的多任务查询补全推荐方法

AI科技评论

4+阅读 · 2020年8月4日

KDD 2020 | 会话推荐系统新进展：基于互信息最大化的多知识图谱语义融合

AINLP

22+阅读 · 2020年7月12日

【哈工大SCIR】多模态情感分析简述

深度学习自然语言处理

33+阅读 · 2019年12月14日

KDD 2019开源论文 | 基于异质图神经网络的用户意图推荐

PaperWeekly

31+阅读 · 2019年11月2日

CVPR 2019提前看：少样本学习专题

机器之心

19+阅读 · 2019年6月14日

【泡泡点云时空】基于选择性传感器融合的神经网络视觉里程计

泡泡机器人SLAM

18+阅读 · 2019年4月21日

KDD 18 & AAAI 19 | 异构信息网络表示学习论文解读

PaperWeekly

21+阅读 · 2019年2月25日

【推荐系统论文笔记】DKN: 基于深度知识感知的新闻推荐网络（WWW2018 ）

专知

18+阅读 · 2018年4月2日

【CQA论文笔记】基于异构社交网络学习的社区问答方法，同时建模问题、回答和回答者

专知

7+阅读 · 2018年3月22日

【AAAI专题】中篇：BRAVE组系列研究进展之“视听模态的生成”

中国科学院自动化研究所

4+阅读 · 2018年1月25日

Projection based model reduction for the immersed boundary method

Arxiv

0+阅读 · 2021年1月28日

Shortest Paths in Graphs of Convex Sets

Arxiv

0+阅读 · 2021年1月27日

Natural Language Inference in Context -- Investigating Contextual Reasoning over Long Texts

Arxiv

6+阅读 · 2020年11月10日

Few-Shot Knowledge Graph Completion

Arxiv

14+阅读 · 2019年11月26日

Multimodal Intelligence: Representation Learning, Information Fusion, and Applications

Arxiv

78+阅读 · 2019年11月10日

Dialogue Natural Language Inference

Arxiv

7+阅读 · 2018年11月1日

Recursive Feature Generation for Knowledge-based Learning

Arxiv

4+阅读 · 2018年1月31日

Integrating semi-supervised label propagation and random forests for multi-atlas based hippocampus segmentation

Arxiv

3+阅读 · 2017年12月31日

Multimodal Machine Learning: A Survey and Taxonomy

Arxiv

151+阅读 · 2017年8月1日

Recurrent Instance Segmentation

Arxiv

5+阅读 · 2016年10月24日

VIP会员