本文由腾讯优图实验室和中科院软件所联合提出。细粒度视觉分类(Fine-Grained Visual Categorization,FGVC)因样本类间差异更加细微,往往只能借助微小的局部差异才能区分出不同的类别,使其成为一项重要但具有挑战性的任务。本文提出了一种基于注意力机制的卷积二叉神经树结构。具体来说,我们将传统的决策树与神经网络结合,在树的内部节点中使用路由来确定树内从根到叶的计算路径,并且在树的边上添加了卷积操作增强表示学习,最终决策融合了所有叶节点的预测。该模型以一种由粗到细的层次方式学习具有判别力的特征。此外,我们采用了非对称的策略来增加多尺度特征提取,增强样本的区分性特征表示。我们采用SGD优化方法以端到端的方式训练整个网络。我们的方法在CUB-200-2011,Stanford Cars 和 Aircraft数据集上进行了评估,显著优于当前其他的弱监督细粒度方法。