现有的知识蒸馏方法主要集中在卷积神经网络(convolutional neural networks~, CNNs)上,其中图像等输入样本位于一个网格域内,而处理非网格数据的graph convolutional networks~(GCN)则在很大程度上被忽略。在这篇论文中,我们提出从一个预先训练好的GCN模型中蒸馏知识的第一个专门方法。为了实现知识从教师到学生的迁移,我们提出了一个局部结构保留模块,该模块明确地考虑了教师的拓扑语义。在这个模块中,来自教师和学生的局部结构信息被提取为分布,因此最小化这些分布之间的距离,使得来自教师的拓扑感知的知识转移成为可能,从而产生一个紧凑但高性能的学生模型。此外,所提出的方法很容易扩展到动态图模型,其中教师和学生的输入图可能不同。我们使用不同架构的GCN模型,在两个不同的数据集上对所提出的方法进行了评估,并证明我们的方法达到了GCN模型最先进的知识蒸馏性能。

成为VIP会员查看完整内容
0
66

相关内容

题目: Hyperbolic Attention Network

摘要: 最近的方法已经成功地证明了在双曲空间中学习浅层网络参数的优势。我们将双曲几何引入到用于计算不同神经网络结构的注意力机制的嵌入中,从而扩展了这一工作。通过改变object表示的嵌入几何形状,可以在不增加模型参数的情况下能更有效地利用嵌入空间。更重要的是,由于查询的语义距离以指数的速度增长,双曲几何与欧几里得几何相反—可以编码那些object而没有任何干扰。我们的方法在总体上对WMT' 14(英语到德语)的神经机器翻译、图学习(合成和现实世界图任务)和视觉问答(CLEVR)3个任务得到了提升,同时保持神经表征的简洁。

成为VIP会员查看完整内容
0
55

主题: Heterogeneous Graph-based Knowledge Transfer for Generalized Zero-shot Learning

摘要: 广义零样本学习(GZSL)解决了同时涉及可见类和不可见类的实例分类问题。关键问题是如何有效地将从可见类学习到的模型转换为不可见类。GZSL中现有的工作通常假设关于未公开类的一些先验信息是可用的。然而,当新的不可见类动态出现时,这种假设是不现实的。为此,我们提出了一种新的基于异构图的知识转移方法(HGKT),该方法利用图神经网络对GZSL、不可知类和不可见实例进行知识转移。具体地说,一个结构化的异构图,它是由所见类的高级代表节点构造而成,这些代表节点通过huasstein-barycenter来选择,以便同时捕获类间和类内的关系,聚集和嵌入函数可以通过图神经网络来学习,它可以用来计算不可见类的嵌入,方法是从它们的内部迁移知识。在公共基准数据集上的大量实验表明,我们的方法达到了最新的结果。

成为VIP会员查看完整内容
0
47

Existing knowledge distillation methods focus on convolutional neural networks~(CNNs), where the input samples like images lie in a grid domain, and have largely overlooked graph convolutional networks~(GCN) that handle non-grid data. In this paper, we propose to our best knowledge the first dedicated approach to {distilling} knowledge from a pre-trained GCN model. To enable the knowledge transfer from the teacher GCN to the student, we propose a local structure preserving module that explicitly accounts for the topological semantics of the teacher. In this module, the local structure information from both the teacher and the student are extracted as distributions, and hence minimizing the distance between these distributions enables topology-aware knowledge transfer from the teacher, yielding a compact yet high-performance student model. Moreover, the proposed approach is readily extendable to dynamic graph models, where the input graphs for the teacher and the student may differ. We evaluate the proposed method on two different datasets using GCN models of different architectures, and demonstrate that our method achieves the state-of-the-art knowledge distillation performance for GCN models.

0
16
下载
预览

我们常常希望将表征性知识从一个神经网络转移到另一个神经网络。例如,将一个大的网络提炼成一个较小的网络,将知识从一种感觉模态传递到另一种感觉模态,或者将一组模型集成到一个单独的估计器中。知识蒸馏是解决这些问题的标准方法,它最小化了教师和学生网络的概率输出之间的KL分歧。我们证明这一目标忽视了教师网络的重要结构知识。这激发了另一个目标,通过这个目标,我们训练学生从老师对数据的描述中获取更多的信息。我们把这个目标称为对比学习。实验表明,我们得到的新目标在各种知识转移任务(包括单模型压缩、集成蒸馏和跨模态转移)上的性能优于知识蒸馏和其他前沿蒸馏器。我们的方法在许多转移任务中设置了一个新的水平,有时甚至超过教师网络与知识蒸馏相结合。

成为VIP会员查看完整内容
0
35

标签传播(LPA)和图卷积神经网络(GCN)都是图上的消息传递算法。两者都解决了节点分类的任务,但是LPA将节点标签信息传播到图的边缘,而GCN传播并转换节点特征信息。然而,虽然概念相似,LPA和GCN之间的理论关系还没有得到研究。这里我们从两个方面研究了LPA和GCN之间的关系:(1)特征/标签平滑,分析一个节点的特征/标签如何扩散到它的邻居;(2)一个节点的初始特征/标签对另一个节点的最终特征/标签的影响程度。在理论分析的基础上,提出了一种统一GCN和LPA的节点分类端到端模型。在我们的统一模型中,边缘权值是可学习的,LPA作为正则化帮助GCN学习合适的边缘权值,从而提高分类性能。我们的模型也可以看作是基于节点标签的注意力学习权重,它比现有的基于特征的注意力模型更面向任务。在真实图数据的大量实验中,我们的模型在节点分类准确度方面显示出优于目前最先进的基于gcn的方法。

成为VIP会员查看完整内容
0
80

题目: Tensor Graph Convolutional Networks for Text Classification

摘要: 文本分类是自然语言处理中一个重要而经典的问题。已有许多研究将卷积神经网络(如规则网格上的卷积,序列)应用于分类。然而,只有有限数量的研究已经探索了更灵活的图卷积神经网络(卷积在非网格上,例如,任意图)的任务。在这项工作中,我们建议使用图卷积网络进行文本分类。基于词的共现关系和文档词之间的关系,我们为一个语料库建立一个文本图,然后学习一个文本图卷积网络(text GCN)。我们的文本GCN使用word和document的一个热表示进行初始化,然后在已知文档类标签的监督下,共同学习word和document的嵌入。我们在多个基准数据集上的实验结果表明,没有任何外部单词嵌入或知识的普通文本GCN优于最新的文本分类方法。另一方面,文本GCN还学习预测词和文档嵌入。此外,实验结果表明,随着训练数据百分比的降低,文本GCN相对于现有比较方法的改进变得更加突出,这表明文本GCN对文本分类中较少的训练数据具有鲁棒性。

成为VIP会员查看完整内容
0
64

论文题目

Model Cards for Model Reporting

论文摘要

在给定一些具有足够训练样本的基本类别上,少镜头学习的目的是从很少的样本中学习新的类别。这项任务的主要挑战是新的类别容易受到颜色、纹理、物体形状或背景背景(即特异性)的支配,这对于给定的少数训练样本是不同的,但对于相应的类别则不常见。幸运的是,我们发现基于范畴可以帮助学习新概念,从而避免新概念被特定性所支配。此外,结合不同类别之间的语义关联,可以有效地规范这种信息传递。在这项工作中,我们以结构化知识图的形式来表示语义关联,并将此图集成到深度神经网络中,利用一种新的知识图转移网络(KGTN)来促进少量镜头的学习。具体地说,通过使用对应类别的分类器权重初始化每个节点,学习传播机制以自适应地通过图来探索节点间的相互作用,并将基本类别的分类器信息传递给新类别的分类器信息。在ImageNet数据集上进行的大量实验表明,与当前领先的竞争对手相比,性能有了显著提高。此外,我们还构建了一个涵盖更大尺度类别(即6000个类别)的ImageNet-6K数据集,在该数据集上的实验进一步证明了我们提出的模型的有效性。

论文作者 陈日泉,陈天水,许晓璐,吴鹤峰,李冠斌,梁林,中山大学达克马特人工智能研究所。

成为VIP会员查看完整内容
0
81
小贴士
相关VIP内容
专知会员服务
84+阅读 · 2020年7月9日
【ICLR 2019】双曲注意力网络,Hyperbolic  Attention Network
专知会员服务
55+阅读 · 2020年6月21日
相关资讯
知识图注意力网络 KGAT
图与推荐
40+阅读 · 2020年3月16日
一文读懂图卷积GCN
计算机视觉life
14+阅读 · 2019年12月21日
【论文笔记】Graph U-Nets
专知
57+阅读 · 2019年11月25日
基于知识蒸馏的BERT模型压缩
大数据文摘
17+阅读 · 2019年10月14日
图卷积神经网络(GCN)文本分类详述
专知
216+阅读 · 2019年4月5日
图注意力网络
科技创新与创业
27+阅读 · 2017年11月22日
相关论文
Timothée Lacroix,Guillaume Obozinski,Nicolas Usunier
7+阅读 · 2020年4月10日
Spatio-Temporal Graph for Video Captioning with Knowledge Distillation
Boxiao Pan,Haoye Cai,De-An Huang,Kuan-Hui Lee,Adrien Gaidon,Ehsan Adeli,Juan Carlos Niebles
17+阅读 · 2020年3月31日
Mining Implicit Entity Preference from User-Item Interaction Data for Knowledge Graph Completion via Adversarial Learning
Gaole He,Junyi Li,Wayne Xin Zhao,Peiju Liu,Ji-Rong Wen
6+阅读 · 2020年3月28日
Distillating Knowledge from Graph Convolutional Networks
Yiding Yang,Jiayan Qiu,Mingli Song,Dacheng Tao,Xinchao Wang
16+阅读 · 2020年3月23日
Chuxu Zhang,Huaxiu Yao,Chao Huang,Meng Jiang,Zhenhui Li,Nitesh V. Chawla
11+阅读 · 2019年11月26日
Knowledge Distillation from Internal Representations
Gustavo Aguilar,Yuan Ling,Yu Zhang,Benjamin Yao,Xing Fan,Edward Guo
4+阅读 · 2019年10月8日
Runhao Zeng,Wenbing Huang,Mingkui Tan,Yu Rong,Peilin Zhao,Junzhou Huang,Chuang Gan
5+阅读 · 2019年9月7日
Fengwen Chen,Shirui Pan,Jing Jiang,Huan Huo,Guodong Long
14+阅读 · 2019年4月4日
Brandon Malone,Alberto García-Durán,Mathias Niepert
3+阅读 · 2018年10月22日
Tim Dettmers,Pasquale Minervini,Pontus Stenetorp,Sebastian Riedel
27+阅读 · 2018年4月6日
Top