组合优化是计算机视觉的常用方法。例如,在诸如语义分割、人体姿态估计和动作识别等应用中,为解决条件随机域(CRFs)中的推理问题而编写的程序可以生成与图像视觉特征一致的结构化输出。然而,在CRFs中求解推理通常是棘手的,而近似方法在计算上要求很高,并且仅限于一元的、成对的和手工制作的高阶势形式。在这篇论文中,我们证明了我们可以学习程序启发式。策略,用于解决高阶CRFs中推理任务的语义分割,采用强化学习。我们的方法有效地解决了推理任务,而没有对势的形式施加任何约束。我们在Pascal VOC和MOTS数据集上展示了引人注目的结果。