本文由腾讯 AI Lab 和中国科学院自动化研究所合作完成。图分类、药物分子官能团发掘、图数据去噪等任务都可以归结为寻找一个与原图标签最为相关且滤除噪声结构的子图。然而监督学习需要利用子图层面的标签,且图的不规则离散结构对算法优化带来了挑战。
本文基于信息瓶颈理论提出了信息瓶颈子图的概念和图信息瓶颈算法,并针对图的不规则离散结构提出了二层互信息优化算法与连续化松弛方法。基于该算法,不需要显式的子图标签即可有效识别这种子图。
实验表明,该算法能有效提高多种图分类算法的精度;在分子数据集上,该算法能够准确识别最能影响药物分子属性的子结构;此外,该算法对于有噪声的图分类任务有较好的鲁棒性。
本文在图深度学习中开拓出了一个子图识别的新的研究领域,并在药物发现中起到了一定的辅助分析的作用。其中结合信息瓶颈理论来解决图问题的思路也对今后的相关研究有借鉴意义。
想了解更多关于图深度学习的信息,可阅读文章:腾讯AI Lab联合清华、港中文,万字解读图深度学习历史、最新进展与应用