We introduce a modern Hopfield network with continuous states and a corresponding update rule. The new Hopfield network can store exponentially (with the dimension of the associative space) many patterns, retrieves the pattern with one update, and has exponentially small retrieval errors. It has three types of energy minima (fixed points of the update): (1) global fixed point averaging over all patterns, (2) metastable states averaging over a subset of patterns, and (3) fixed points which store a single pattern. The new update rule is equivalent to the attention mechanism used in transformers. This equivalence enables a characterization of the heads of transformer models. These heads perform in the first layers preferably global averaging and in higher layers partial averaging via metastable states. The new modern Hopfield network can be integrated into deep learning architectures as layers to allow the storage of and access to raw input data, intermediate results, or learned prototypes. These Hopfield layers enable new ways of deep learning, beyond fully-connected, convolutional, or recurrent networks, and provide pooling, memory, association, and attention mechanisms. We demonstrate the broad applicability of the Hopfield layers across various domains. Hopfield layers improved state-of-the-art on three out of four considered multiple instance learning problems as well as on immune repertoire classification with several hundreds of thousands of instances. On the UCI benchmark collections of small classification tasks, where deep learning methods typically struggle, Hopfield layers yielded a new state-of-the-art when compared to different machine learning methods. Finally, Hopfield layers achieved state-of-the-art on two drug design datasets. The implementation is available at: https://github.com/ml-jku/hopfield-layers


翻译:我们引入了一个具有连续状态和相应更新规则的现代Hopfield网络。 新的Hopfield网络可以大量存储( 连带空间的维度) 许多模式, 以一次更新获取模式, 并具有极小的检索错误。 它有三种类型的能源微型( 固定点) :(1) 全球固定点, 平均覆盖所有模式, (2) 元表国家平均覆盖一组模式, (3) 存储单一模式的固定点。 新的更新规则与变压器使用的注意机制相当。 这一等值可以描述变压模型的负责人。 这些领导人在第一层的表现最好是全球平均, 在更高层的表现中则部分通过元化状态进行。 新的Hopfield网络可以整合成深层次的学习结构, 作为层层, 储存和获取原始投入数据、 中间结果或学习原型。 这些Hopfield层的层可以带来新的深层次学习方式, 除了完全连接的、 革命网络或经常网络, 并提供集合、 联合和关注机制。 我们展示了Hopfield 层层次在多个域的两层的可广泛适用性应用性应用性。 CI 。 CI 标准 学习 水平 水平 在数千 学习 标准 学习 学习 级 学习 级 学习 标准 的 学习 学习 学习 的 的 的 的 水平 水平 的 的 的 的 水平 的 水平 的 的 的 的 的 的 的 的 水平 水平 水平 的 的 的 的 水平 的 的 的 的 的 的 水平 的 的 的 的 的 的 的 水平 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 和 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的

0
下载
关闭预览

相关内容

【干货书】PyTorch 深度学习,255页pdf
专知会员服务
274+阅读 · 2021年4月3日
剑桥大学《数据科学: 原理与实践》课程,附PPT下载
专知会员服务
49+阅读 · 2021年1月20日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
论文共读 | Attention is All You Need
黑龙江大学自然语言处理实验室
14+阅读 · 2017年9月7日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
【推荐】TensorFlow手把手CNN实践指南
机器学习研究会
5+阅读 · 2017年8月17日
Attention is All You Need | 每周一起读
PaperWeekly
10+阅读 · 2017年6月28日
Arxiv
1+阅读 · 2021年6月17日
Arxiv
28+阅读 · 2021年5月17日
Arxiv
4+阅读 · 2018年10月31日
Arxiv
10+阅读 · 2018年2月4日
Arxiv
27+阅读 · 2017年12月6日
Arxiv
3+阅读 · 2015年11月29日
VIP会员
相关资讯
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
论文共读 | Attention is All You Need
黑龙江大学自然语言处理实验室
14+阅读 · 2017年9月7日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
【推荐】TensorFlow手把手CNN实践指南
机器学习研究会
5+阅读 · 2017年8月17日
Attention is All You Need | 每周一起读
PaperWeekly
10+阅读 · 2017年6月28日
相关论文
Arxiv
1+阅读 · 2021年6月17日
Arxiv
28+阅读 · 2021年5月17日
Arxiv
4+阅读 · 2018年10月31日
Arxiv
10+阅读 · 2018年2月4日
Arxiv
27+阅读 · 2017年12月6日
Arxiv
3+阅读 · 2015年11月29日
Top
微信扫码咨询专知VIP会员