大样本靠机器学习,小样本用知识推理。近年来,知识图谱在低资源、小样本场景下的作用和价值得到越来越多的关注。特别的,知识驱动的零样本学习技术引起了学者们较多关注,即借助语义知识(辅助信息)让机器学习模型在缺少训练数据的情况下解决样本标签的预测问题。本文将介绍浙江大学与牛津大学、爱丁堡大学近期在知识驱动的零样本学习方面的两篇合作工作,其中一篇是综述文章,发表于IJCAI 2021 Survey Track,在这篇文章中,我们对零样本学习的问题、方法和应用做了总结。特别地,我们对现有工作中涉及的语义知识进行了总结、分析和比较,探讨符号化知识对于零样本学习等机器学习任务的重要作用和研究潜力。另外一篇工作为社区贡献了开放资源及K-ZSL评测数据集,为零样本及低资源学习方法提供新的研究思路和数据评测驱动力。我们希望以这类知识驱动的零样本学习技术及迁移学习技术为基石,探索有效的神经符号集成模式(Neural-Symbolic Integration),促进相关领域的研究进步。
前言:知识驱动的零样本学习
近年来,深度学习技术依托强大的计算资源、复杂的神经网络和大规模的标注数据集在视觉、语言、医学、金融等广泛的研究领域取得了显著的成就。然而,在现实应用场景中,尤其是在开放世界的背景假设下,随时会有一些新的概念/对象出现,持续地为这些新概念/对象收集样本并进行标注是极为不现实的。因此,研究人员提出了零样本学习(Zero-shot Learning, ZSL)的概念,用于处理没有标注样本的情况下概念/对象的预测问题,以解决现有的深度学习模型尤其是有监督学习模型对大量标注数据(即训练样本)的依赖。
借助一个直观的例子,我们首先对ZSL的工作原理做一个简单的介绍:某动物园内,小明在爸爸的带领下先后认识了马、老虎和熊猫三种动物,随后爸爸让小明在动物园里找一种之前从未见过的动物,叫斑马,并告诉了小明关于斑马的信息:“斑马的体型很像马,它身上还有像老虎一样的条纹,而且它像熊猫一样是黑色色的”。最后,小明根据爸爸的提示,在动物园里找到了斑马。 上述例子是一个典型的人类推理的过程——利用常识或者某个领域的专业知识(马、老虎、熊猫和斑马的描述),在脑海里推理出新对象的具体形态,从而对新对象进行辨认。ZSL所做的正是模仿人的这种推理能力,依赖一些对象间的语义联系,将模型在有标注样本的、训练过的对象(Seen Object,即上述例子中的马、老虎、熊猫)上学习到的特征迁移到没有标注样本、未在训练集中出现过的新对象(Unseen Object,即斑马)上,从而解决这些没有训练样本的对象的预测问题。 图片
知识驱动的零样本学习
对象间的语义联系通常依赖一些外部知识建立,如自然语言文本,这些外部知识从另一维度对象进行了描述(区别于对象的样本),且相比于标注样本更容易获取(如百科知识、在线语料)。其他的一些领域特定的语义知识如属性描述、类别层次等描述了领域内概念间的关系,为该领域的零样本预测问题提供了帮助。