神经网络如何特征外推？上海交大NeurIPS21—面向开放环境特征外推的图学习解决方案

本文来自上海交通大学Thinklab

本文介绍被NeurIPS21接收的新工作。我们对一个全新的问题在通用的设定下进行了探索，相关问题定义和方法适用于诸多具体应用。论文和代码链接在文末提供。

论文题目：Towards Open-World Feature Extrapolation: An Inductive Graph Learning Approach

作者信息：Qitian Wu, Chenxiao Yang, Junchi Yan (Shanghai Jiao Tong University)

关键词：图神经网络、特征表示学习、分布外泛化

https://www.zhuanzhi.ai/paper/9a5c65152ea2af851fc7cba33aadd014

动机：特征外推问题的定义与重要性

目前的大多数机器学习任务，通常假设训练数据与测试数据共享一个特征空间。然而在实际场景中，训练好的模型通常需要与一个开放环境进行交互，测试集中就会出现新的特征。例如推荐系统中利用用户的年龄、职业等特征训练好了一个推荐模型，后来公司新发布了某个应用，收集到了新的用户数据，这就需要用新的用户特征进行决策。

下图给出了一个直观的说明，我们考虑训练数据与测试数据的特征维度不一致（后者是前者的扩张），在这种情况下如果我们把训练好的神经网络直接迁移到测试集，由于对应新特征维度的神经元未经过训练，网络的测试性能就会大大下降，而重新在包含新特征的数据集上训练一个神经网络又需要耗费大量的计算资源。本篇论文中，我们提出了一种新的学习方法，基于特征与样本之间的关系所形成的图结构，利用已知的特征表示（embedding）来外推新特征的表示，模型无需重新训练就能泛化到包含新特征的数据上。

我们工作的最大贡献在于定义了一个全新的问题框架，即特征空间的外推问题，并且说明了神经网络模型可以胜任此类任务，解决测试阶段新出现的特征。由于本文的重点在于探索一个新的方向，我们采用了较为通用的设定，未来可以对本文的研究问题做进一步的拓展，包括但不限于考虑：1）持续学习（Continual Learning）中不断到来的新特征；2）多模态学习（Multi-Modal Learning）或多视角学习（Multi-View Learning）中融合多方数据的表示；3）联邦学习（Federated Learning）中中心服务器需要处理分布式节点的新特征。此外，本文研究的问题和解决思路也可以被应用到诸多其他领域和场景。欢迎讨论，请发邮件至echo740@sjtu.edu.cn

成为VIP会员查看完整内容