人类能够利用从以往经验中提取的概念快速理解场景。这些概念是多种多样的,包括全局场景描述符(如天气或光照),以及局部场景描述符(如特定对象的颜色或大小)。到目前为止,概念的无监督发现主要集中在建模全局场景级或局部对象级的变化因素,而不是两者。在这项工作中,我们提出了COMET,它发现并表示概念为独立的能量函数,使我们能够在一个统一的框架下表示全局概念和对象。COMET通过重新组合输入图像发现能量函数,我们发现该图像捕获独立的因素,而不需要额外的监督。COMET中的示例生成是对底层能量函数的优化过程,使我们能够生成具有排列和组合概念的图像。最后,在COMET中发现的可视概念具有很好的通用性,使我们能够在不同的图像模式之间组合概念,以及在不同数据集上训练的单独COMET实例发现的其他概念。代码和数据可在https://energy-based-model.github.io/comet/。