Do Differentiable Simulators Give Better Policy Gradients?
作者:Hyung Ju Suh, Max Simchowitz, Kaiqing Zhang, Russ Tedrake发文单位:麻省理工学院论文链接:https://arxiv.org/pdf/2202.00817.pdf摘要:可微分模拟器通过用基于一阶梯度的估计取代随机目标的零阶梯度估计,为强化学习提供更快的计算时间。然而,目前还不清楚是什么因素决定了这两个估计器在涉及物理系统的长视距规划和控制的复杂景观中的性能。我们表明,某些物理系统的特征,如刚度或不连续性,可能会损害一阶估计器的功效,并通过偏差和方差的角度分析这一现象。我们还提出了一个α阶梯度估计器,α∈[0,1],它正确地利用了精确梯度,将一阶估计的效率与零阶方法的鲁棒性结合起来。
Learning inverse folding from millions of predicted structures
作者:Chloe Hsu, Robert Verkuil, Jason Liu, Zeming Lin, Brian Hie, Tom Sercu, Adam Lerer, Alexander Rives 发文单位:加州大学伯克利分校、Facebook AI、纽约大学论文链接:https://www.biorxiv.org/content/10.1101/2022.04.10.487779v1.full.pdf摘要:本文通过使用AlphaFold2预测1200万个蛋白质序列的结构,将训练数据增加了近三个数量级。通过这些额外数据的训练,一个具有不变的几何输入处理层的序列到序列的转化器在结构保持的骨架上实现了51%的原生序列恢复,对埋藏的残基实现了72%的恢复,比现有的方法整体提高了近10个百分点。
Learning Mixtures of Linear Dynamical Systems
作者:Yanxi Chen, H. Vincent Poor发文单位:普林斯顿大学论文链接:https://proceedings.mlr.press/v162/chen22t/chen22t.pdf摘要:本文研究了从无标签的短样本轨迹中学习多个线性动态系统(LDS)的混合物的问题,每个样本由一个LDS模型生成。尽管混合模型对时间序列数据具有广泛的适用性,但现有文献中基本没有附带端到端的性能保证的学习算法。我们开发了一个两阶段的元算法,保证有效地恢复每个真实的LDS模型,其误差为Oe( p d/T),其中T为总样本量。我们用数值实验验证了我们的理论研究,证实了所提出的算法的有效性。
Causal Conceptions of Fairness and their Consequences
作者:Hamed Nilforoshan, Johann Gaebler, Ravi Shroff, Sharad Goel发文单位:斯坦福大学、纽约大学、哈佛大学论文链接:https://arxiv.org/pdf/2207.05302.pdf摘要:本文将流行的算法公平的因果定义归纳为两大类:(1)那些限制决策对反事实差异的影响的定义;以及(2)那些限制受法律保护的特征,如种族和性别,对决策的影响的定义。本文通过分析和经验表明,这两个系列的定义(几乎总是)--在计量理论的意义上--导致强烈的帕累托支配的决策政策,这意味着有一个替代的、不受约束的政策受到每个利益相关者的青睐,其偏好来自一个大的、自然的类别。事实上,在一个突出的因果公平定义下,我们证明所产生的政策要求以相同的概率录取所有学生,而不考虑学术资格或团体成员。我们的结果强调了因果公平的常见数学概念的形式限制和潜在的不利后果。
The Importance of Non-Markovianity in Maximum State Entropy Exploration
作者:Mirco Mutti, Riccardo De Santi, Marcello Restelli发文单位:米兰理工大学、博洛尼亚大学、苏黎世联邦理工学院论文链接:https://arxiv.org/pdf/2202.03060.pdf摘要:在最大状态熵探索框架中,代理人与无奖励环境互动,以学习一个政策,使其诱导的预期状态访问熵最大化。在本文中,我们认为非马尔科夫性对于有限样本制度下的最大状态熵探索反而是最重要的。特别是,我们将目标重塑为在一次试验中诱导状态访问的预期熵。我们表明,非马尔科夫确定性策略的类别对于引入的目标来说是足够的,而马尔科夫策略在一般情况下遭受非零遗憾。然而,我们证明寻找最佳非马尔科夫政策的问题是NP-hard。尽管有这个否定的结果,我们讨论了以可操作的方式解决这个问题的途径,以及非马尔科夫探索如何在未来的工作中有利于在线强化学习的样本效率。
Minimum Cost Intervention Design for Causal Effect Identification
作者:Sina Akbari, Jalal Etesami, Negar Kiyavash发文单位:瑞士洛桑联邦理工学院(College of Management of Technology, EPFL)论文链接:https://arxiv.org/pdf/2205.02232.pdf摘要:在这项工作中,我们考虑的问题是以最小的成本设计干预措施的集合,以确定所需的效果。首先,我们证明这个问题是NP-hard的,随后提出一种算法,可以找到最优解或对数因子的近似解。这是通过在我们的问题和最小命中集问题之间建立联系来实现的。此外,我们提出了几个多项式时间启发式算法来解决这个问题的计算复杂性。尽管这些算法有可能在次优的解决方案上绊倒,但我们的模拟表明,它们在随机图上实现了小的遗憾。
Privacy for Free: How does Dataset Condensation Help Privacy?
作者:Tian Dong, Bo Zhao, Lingjuan Lyu发文单位:上海交通大学、爱丁堡大学、Sony AI论文链接:https://arxiv.org/pdf/2206.00240.pdf摘要:为了防止无意中的数据泄露,研究界采用了能够产生不同隐私数据的数据生成器进行模型训练。然而,出于对数据隐私的考虑,现有的解决方案要么存在昂贵的训练成本,要么存在较差的泛化性能。因此,我们提出了一个问题:训练效率和隐私是否可以同时实现。在这项工作中,我们首次发现,原本为提高训练效率而设计的数据集浓缩(DC)也是一个更好的解决方案,可以取代传统的数据生成器来生成私有数据,从而免费提供隐私。为了证明DC的隐私优势,我们建立了DC和差分隐私之间的联系,并在理论上证明了线性特征提取器(然后扩展到非线性特征提取器),一个样本的存在对通过DC从n(n m)个原始样本合成的m个样本上训练的网络的参数分布影响有限(O(m/n))。我们还通过发起基于损失的和最先进的基于似然的成员推理攻击,实证验证了DC合成数据的视觉隐私和成员隐私。我们认为这项工作是数据高效和保护隐私的机器学习的一个里程碑。
Bayesian Model Selection, the Marginal Likelihood, and Generalization
作者:Sanae Lotfi, Pavel Izmailov, Gregory Benton, Micah Goldblum, Andrew Wilson发文单位:纽约大学论文链接:https://arxiv.org/pdf/2202.11678.pdf摘要:如何在与观察完全一致的假说之间进行比较?边际似然(又称贝叶斯证据)代表了从先验产生我们观察结果的概率,它为这个基础性问题提供了一种独特的方法,自动编码了奥卡姆剃刀。尽管已经观察到边际似然可以过度拟合,并且对先验假设很敏感,但它对超参数学习和离散模型比较的局限性还没有被彻底研究。我们首先重温了边际似然对于学习约束和假设检验的吸引人的特性。然后,我们强调了使用边际似然作为泛化的代理的概念和实际问题。也就是说,我们展示了边际似然如何与泛化负相关,对神经结构搜索有影响,并可能导致超参数学习中的欠拟合和过拟合。我们通过条件边际似然提供了部分补救措施,我们表明条件边际似然与泛化更加一致,对大规模的超参数学习,如深度核学习,具有实际价值。