在机器学习中,长期以来,数据表示的学习一直是一个理想的目标。构建这样的表示可以使得分类或物体检测等下游任务高效执行。此外,我们希望这些表示可以以一种可解释的方式构建,这将允许我们对输入特性进行细致的干预和推理。其他任务可能包括不同模态之间的交叉生成,或者校准预测使其信心匹配其准确性。一种有效学习表示的方法是通过变分自编码器(VAE),它对可观察输入的潜在变量进行变分推断。在这篇论文中,我们展示了如何利用VAE:将标签信息融入学习过程;学习多模态数据的共享表示;以及校准现有神经分类器的预测。
数据源通常伴随着额外的标签信息,这可能表示输入中存在某种特性。自然地,我们会问一个问题:是否可以使用额外的标签信息来构造表示,使其提供关于特性的互操作性概念,例如“这个人在多大程度上在微笑?”。这篇论文的第一项贡献是解决上述问题,并提出了一个成功使用标签信息构造潜在空间的方法。此外,这还使我们能够执行其他任务,如细致的干预;分类;以及有条件的生成。此外,我们也成功地处理了标签信息缺失的情况,这在训练这些模型时大大减少了数据负担。
我们有时并未获得标签,而是观察到了同一对象的另一种非结构化观察,例如图像的标题。在这种情况下,模型的目标稍微改变,变成了能够学习数据的共享表示,使其能够在模态之间进行交叉生成。这篇论文的第二项贡献解决了这个问题。在这里,学习是通过在模态之间实施互相监督并引入双向目标来进行的,这确保了模型中的对称性。此外,凭借这种方法,我们能够在某些模态在训练过程中可能缺失的情况下学习这些表示。
不确定性量化在机器学习中是一项重要的任务,现在众所周知,当前的深度学习模型严重高估了他们的信心。这篇论文的最后一项贡献是探讨如何使用VAE的表示来为神经分类器提取可靠的信心估计。这项研究导向了一种新颖的方法来校准神经分类器,该方法在现成的分类器上进行事后应用,且训练和测试的速度非常快。