零样本学习(Zero-shot learning, ZSL)解决了未见类别识别问题,将语义知识从显性类别转移到未见类别。通常,为了保证理想的知识转移,在ZSL中使用一个公共(潜在)空间来关联视觉域和语义域。然而,现有的空间学习方法仅仅通过一步适应来缓解分布的分歧,从而使语义和视觉领域保持一致。这种策略通常是无效的,因为这两个领域的特征表示具有异质性的本质,本质上包含了分布和结构的变化。为了解决这一问题,我们提出了一种新的层次语义-视觉自适应(HSVA)框架。具体来说,HSVA通过两步层次适应,即结构适应和分布适应,对语义域和视觉域进行对齐。在结构调整步骤中,我们采用两个特定于任务的编码器将源数据(视觉域)和目标数据(语义域)编码到一个与结构对齐的公共空间中。为此,提出了一个监督对抗差异(supervised adversarial不符,SAD)模块,以对抗最小化两个任务特定分类器预测之间的差异,从而使视觉和语义特征流形更紧密地对齐。在分布自适应步骤中,我们直接最小化潜在的多元高斯分布之间的Wasserstein距离,使用公共编码器对齐视觉分布和语义分布。最后,在一个统一的框架下推导了在两个部分对齐的变分自编码器下的结构和分布自适应。在四个基准数据集上的大量实验表明,HSVA在传统ZSL和广义ZSL上都取得了优异的性能。代码可在https://github.com/shiming-chen/HSVA上获得。