【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

多模态数据是信息科学领域的常见数据形态，如何有效融合不同模态信息进行分析决策是该领域的重要科学问题。从学习范式来看，现有传统多模态学习范式往往忽视了特征间的关联关系信息和特征的高阶信息；深度多模态学习范式则面临数据饥渴、融合过程语义解释性不强问题。尽管面向多模态信息处理已取得了一些进步，但仍然面临着不同模态语义统一表示难、融合效果提升难等挑战（图1）。

图 1 现有多模态学习范式面临的挑战

针对多模态机器学习面临的挑战，该研究通过采用将特征间的关联关系信息和高阶信息耦合到原数据空间的技术路线（图2），提出了关联关系驱动的融合方法（AF）。该方法首先使用具有语义的幂次函数来建模原始数据的高阶信息来提升数据的非线性表达能力，得到一个增强的特征空间；然后通过计算任意两个特征间的相关性得到关系融合矩阵，使用该融合矩阵将增强的特征空间映射到一个关联关系空间。与主流方法深度学习采用基于学习策略建模数据的非线性相比，AF提供了使用具有语义的函数建模数据非线性能力的新视角；此外，与深度学习采用学习策略得到融合参数矩阵方式相比，AF采用基于统计方法的关联指标计算特征间关系，该策略不仅具有语义，而且没引入额外的学习参数。AF所采用的建模数据非线性能力的方式有望为缓解现有深度学习模型面临的解释性瓶颈问题提供新视角。

图 2 关联关系驱动的多模态融合理论与方法

总的来说，AF方法不仅将不同模态统一表示到语义一致的关联关系空间，也是一个可嵌入现有任意的多模态模型中的通用融合框架，为多模态融合领域面临的语义鸿沟瓶颈问题提供了一个有效解决方案。实验表明，耦合了关联关系的新表示具有更强区分能力（图3）。

图 3 Iris 数据集在原始空间和 AF 空间中的散点图与可分性

研究团队通过耦合AF到最好模态融合、早期融合、晚期融合、模型融合以及深度模型中，提出五种增强的多模态分类算法，该方法在大量的真实数据上都统计优于增强前的方法（见图4、5）。

图 4 AF嵌入不同融合框架实验结果

图 5 与最先进算法的比较结果

参考链接： https://news.sxu.edu.cn/jxky/6276291cb01643de87a858fc7807637b.htm

成为VIP会员查看完整内容

相关内容

TPAMI

关注 3114

IEEE模式分析和机器智能期刊TPAMI（IEEE Trans on Pattern Analysis and Machine Intelligence）出版了有关计算机视觉和图像理解的所有传统领域，模式分析和识别的所有传统领域以及机器智能的选定领域的文章，其中特别强调了用于模式分析的机器学习。还涵盖了诸如可视搜索，文档和手写分析，医学图像分析，视频和图像序列分析，基于内容的图像和视频检索，面部和手势识别以及相关的专用硬件和/或软件体系结构等技术领域。官网地址：http://dblp.uni-trier.de/db/journals/pami/

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

专知会员服务

14+阅读 · 2022年3月19日

【CVPR 2022】通过动态梯度调制平衡视听学习，Balanced Audio-visual Learning via On-the-fly Gradient Modulation

专知会员服务

9+阅读 · 2022年3月12日

【NeurIPS2021】基于关联与识别的少样本目标检测

专知会员服务

24+阅读 · 2021年11月29日

【AAAI 2019】双曲异构信息网络嵌入，Hyperbolic Heterogeneous Information Network Embedding

专知会员服务

60+阅读 · 2020年6月28日