Many practical problems need the output of a machine learning model to satisfy a set of constraints, $K$. Nevertheless, there is no known guarantee that classical neural network architectures can exactly encode constraints while simultaneously achieving universality. We provide a quantitative constrained universal approximation theorem which guarantees that for any non-convex compact set $K$ and any continuous function $f:\mathbb{R}^n\rightarrow K$, there is a probabilistic transformer $\hat{F}$ whose randomized outputs all lie in $K$ and whose expected output uniformly approximates $f$. Our second main result is a "deep neural version" of Berge's Maximum Theorem (1963). The result guarantees that given an objective function $L$, a constraint set $K$, and a family of soft constraint sets, there is a probabilistic transformer $\hat{F}$ that approximately minimizes $L$ and whose outputs belong to $K$; moreover, $\hat{F}$ approximately satisfies the soft constraints. Our results imply the first universal approximation theorem for classical transformers with exact convex constraint satisfaction. They also yield that a chart-free universal approximation theorem for Riemannian manifold-valued functions subject to suitable geodesically convex constraints.


翻译:许多实际问题都需要机器学习模式的输出,以满足一系列限制,即$K美元。然而,没有已知的保证古典神经网络结构能够精确地将制约编码,同时实现普遍性。我们提供了一个数量有限的通用近似理论,保证对于任何非康维克斯契约设定的K美元和任何连续功能,对于任何非康维克斯契约设定的K美元和任何连续功能,有一个概率变压器$hat{F}美元,其随机化产出全部以K美元为单位,其预期产出平均约为$f美元。我们的第二个主要结果就是“卑尔赫最大理论(1963年)的“深神经版 ” 。 其结果保证给一个客观函数$L$, 限制设定了$K美元, 以及一个软约束组合。 一个概率变压器$\hat{F}美元, 其产出大约以K美元为限; 此外, $@hat{F}几乎满足了软性限制。我们的结果还意味着,对于典型的变压机机机机的首个普遍近度直线, 和高压的正压的平基压机能,这些功能也意味着对等压的平平压的平压的平基压。

1
下载
关闭预览

相关内容

【杜克-Bhuwan Dhingra】语言模型即知识图谱,46页ppt
专知会员服务
65+阅读 · 2021年11月15日
Google最新《机器学习对偶性》报告,48页ppt
专知会员服务
35+阅读 · 2020年11月29日
最新《Transformers模型》教程,64页ppt
专知会员服务
306+阅读 · 2020年11月26日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
105+阅读 · 2020年6月10日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
【Reformer】图解Reformer:一种高效的Transformer
深度学习自然语言处理
6+阅读 · 2020年3月9日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
利用 Universal Transformer,翻译将无往不利!
谷歌开发者
5+阅读 · 2018年9月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
6+阅读 · 2021年6月24日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
VIP会员
相关资讯
【Reformer】图解Reformer:一种高效的Transformer
深度学习自然语言处理
6+阅读 · 2020年3月9日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
利用 Universal Transformer,翻译将无往不利!
谷歌开发者
5+阅读 · 2018年9月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员