Heterogeneous graphs provide a compact, efficient, and scalable way to model data involving multiple disparate modalities. This makes modeling audiovisual data using heterogeneous graphs an attractive option. However, graph structure does not appear naturally in audiovisual data. Graphs for audiovisual data are constructed manually which is both difficult and sub-optimal. In this work, we address this problem by (i) proposing a parametric graph construction strategy for the intra-modal edges, and (ii) learning the crossmodal edges. To this end, we develop a new model, heterogeneous graph crossmodal network (HGCN) that learns the crossmodal edges. Our proposed model can adapt to various spatial and temporal scales owing to its parametric construction, while the learnable crossmodal edges effectively connect the relevant nodes across modalities. Experiments on a large benchmark dataset (AudioSet) show that our model is state-of-the-art (0.53 mean average precision), outperforming transformer-based models and other graph-based models.
翻译:异质图形提供了一种精密、高效和可缩放的方法来模拟涉及多种不同模式的数据。 这使得使用多元图形的视听数据模型是一个有吸引力的选择。 但是, 图形结构并不自然地出现在视听数据中。 视听数据的图表是手工制作的, 既困难又不理想。 在这项工作中, 我们通过( 一) 提议一个用于内部模式边缘的参数图形构建战略, 以及(二) 学习跨模式边缘来解决这个问题。 为此, 我们开发了一种新的模型, 多种图形跨模式网络( HGCN), 学习跨模式的边缘。 我们提议的模型可以由于模拟结构而适应不同的空间和时间尺度, 而可学习的跨模式边缘则有效地连接了各种模式的相关节点。 在大型基准数据集( AudioSet) 上进行的实验显示, 我们的模型是最新( 0. 53 平均精确度 ) 、 超值的变压器模型和其他基于图表的模型。</s>