We introduce a modern Hopfield network with continuous states and a corresponding update rule. The new Hopfield network can store exponentially (with the dimension of the associative space) many patterns, retrieves the pattern with one update, and has exponentially small retrieval errors. It has three types of energy minima (fixed points of the update): (1) global fixed point averaging over all patterns, (2) metastable states averaging over a subset of patterns, and (3) fixed points which store a single pattern. The new update rule is equivalent to the attention mechanism used in transformers. This equivalence enables a characterization of the heads of transformer models. These heads perform in the first layers preferably global averaging and in higher layers partial averaging via metastable states. The new modern Hopfield network can be integrated into deep learning architectures as layers to allow the storage of and access to raw input data, intermediate results, or learned prototypes. These Hopfield layers enable new ways of deep learning, beyond fully-connected, convolutional, or recurrent networks, and provide pooling, memory, association, and attention mechanisms. We demonstrate the broad applicability of the Hopfield layers across various domains. Hopfield layers improved state-of-the-art on three out of four considered multiple instance learning problems as well as on immune repertoire classification with several hundreds of thousands of instances. On the UCI benchmark collections of small classification tasks, where deep learning methods typically struggle, Hopfield layers yielded a new state-of-the-art when compared to different machine learning methods. Finally, Hopfield layers achieved state-of-the-art on two drug design datasets. The implementation is available at: https://github.com/ml-jku/hopfield-layers
翻译:我们引入了一个具有连续状态和相应更新规则的现代Hopfield网络。 新的Hopfield网络可以大量存储( 连带空间的维度) 许多模式, 以一次更新获取模式, 并具有极小的检索错误。 它有三种类型的能源微型( 固定点) :(1) 全球固定点, 平均覆盖所有模式, (2) 元表国家平均覆盖一组模式, (3) 存储单一模式的固定点。 新的更新规则与变压器使用的注意机制相当。 这一等值可以描述变压模型的负责人。 这些领导人在第一层的表现最好是全球平均, 在更高层的表现中则部分通过元化状态进行。 新的Hopfield网络可以整合成深层次的学习结构, 作为层层, 储存和获取原始投入数据、 中间结果或学习原型。 这些Hopfield层的层可以带来新的深层次学习方式, 除了完全连接的、 革命网络或经常网络, 并提供集合、 联合和关注机制。 我们展示了Hopfield 层层次在多个域的两层的可广泛适用性应用性应用性。 CI 。 CI 标准 学习 水平 水平 在数千 学习 标准 学习 学习 级 学习 级 学习 标准 的 学习 学习 学习 的 的 的 的 水平 水平 的 的 的 的 水平 的 水平 的 的 的 的 的 的 的 的 水平 水平 水平 的 的 的 的 水平 的 的 的 的 的 的 水平 的 的 的 的 的 的 的 水平 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 和 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的