The notion of replicable algorithms was introduced in Impagliazzo et al. [STOC '22] to describe randomized algorithms that are stable under the resampling of their inputs. More precisely, a replicable algorithm gives the same output with high probability when its randomness is fixed and it is run on a new i.i.d. sample drawn from the same distribution. Using replicable algorithms for data analysis can facilitate the verification of published results by ensuring that the results of an analysis will be the same with high probability, even when that analysis is performed on a new data set. In this work, we establish new connections and separations between replicability and standard notions of algorithmic stability. In particular, we give sample-efficient algorithmic reductions between perfect generalization, approximate differential privacy, and replicability for a broad class of statistical problems. Conversely, we show any such equivalence must break down computationally: there exist statistical problems that are easy under differential privacy, but that cannot be solved replicably without breaking public-key cryptography. Furthermore, these results are tight: our reductions are statistically optimal, and we show that any computational separation between DP and replicability must imply the existence of one-way functions. Our statistical reductions give a new algorithmic framework for translating between notions of stability, which we instantiate to answer several open questions in replicability and privacy. This includes giving sample-efficient replicable algorithms for various PAC learning, distribution estimation, and distribution testing problems, algorithmic amplification of $\delta$ in approximate DP, conversions from item-level to user-level privacy, and the existence of private agnostic-to-realizable learning reductions under structured distributions.


翻译:稳定即稳定:可复现性、隐私和自适应泛化之间的联系。Impagliazzo等[STOC '22]引入了可复现算法的概念,用于描述其输入重新采样时稳定的随机算法。具体而言,当其随机性固定并在从相同分布中获取的新数据集上运行时,可复现算法的输出具有高度概率相同。使用可复现算法进行数据分析可以通过确保在新的数据集上分析的结果在高概率下相同来简化验证已发布结果。在本文中,我们建立了可复现性和标准算法稳定性之间的新联系和分离。特别是,我们对一大类统计学问题的完美泛化、近似差分隐私和可复现性之间进行样本有效的算法规约。相反地,我们表明在计算上任何此类等价性都必须破坏:存在着在差分隐私意义下很容易解决却不具备可复现的统计问题,这是不需要破坏公钥加密的。此外,这些结果是紧密的:我们的约束在统计意义下是最优的,并且我们展示了差分隐私与可复现性之间的任何计算隔离都必须意味着单向函数的存在。我们的统计规约提供了一种新的算法框架,可在不同稳定性概念之间进行翻译,我们利用此框架来回答可复现性和隐私领域的几个未解问题,包括各种 PAC 学习、估计分布和测试分布问题的样本效率可复现算法,$\delta$ 的算法近似扩展,由项目级隐私转化为用户级隐私,以及在结构化分布下的存在私有无偏到可实现学习规约。

0
下载
关闭预览

相关内容

【伯克利博士论文】理解和探索无服务器云计算,233页pdf
专知会员服务
21+阅读 · 2022年12月31日
【ICLR2022】分布外泛化的不确定性建模
专知会员服务
41+阅读 · 2022年2月11日
【ICLR2021】对未标记数据进行深度网络自训练的理论分析
生成扩散模型漫谈:DDPM = 贝叶斯 + 去噪
PaperWeekly
1+阅读 · 2022年7月24日
GAN 为什么需要如此多的噪声?
AI科技评论
14+阅读 · 2020年3月17日
【泡泡图灵智库】边缘化采样一致性
泡泡机器人SLAM
23+阅读 · 2019年10月14日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
提高GAN训练稳定性的9大tricks
人工智能前沿讲习班
13+阅读 · 2019年3月19日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月16日
Arxiv
0+阅读 · 2023年5月15日
Arxiv
0+阅读 · 2023年5月12日
已删除
Arxiv
32+阅读 · 2020年3月23日
VIP会员
相关VIP内容
【伯克利博士论文】理解和探索无服务器云计算,233页pdf
专知会员服务
21+阅读 · 2022年12月31日
【ICLR2022】分布外泛化的不确定性建模
专知会员服务
41+阅读 · 2022年2月11日
【ICLR2021】对未标记数据进行深度网络自训练的理论分析
相关资讯
生成扩散模型漫谈:DDPM = 贝叶斯 + 去噪
PaperWeekly
1+阅读 · 2022年7月24日
GAN 为什么需要如此多的噪声?
AI科技评论
14+阅读 · 2020年3月17日
【泡泡图灵智库】边缘化采样一致性
泡泡机器人SLAM
23+阅读 · 2019年10月14日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
提高GAN训练稳定性的9大tricks
人工智能前沿讲习班
13+阅读 · 2019年3月19日
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员