Let $X$ be a random vector valued in $\mathbb{R}^{m}$ such that $\|X\|_{2} \le 1$ almost surely. For every $k\ge 3$, we show that there exists a sigma algebra $\mathcal{F}$ generated by a partition of $\mathbb{R}^{m}$ into $k$ sets such that \[\|\operatorname{Cov}(X) - \operatorname{Cov}(\mathbb{E}[X\mid\mathcal{F}]) \|_{\mathrm{F}} \lesssim \frac{1}{\sqrt{\log{k}}}.\] This is optimal up to the implicit constant and improves on a previous bound due to Boedihardjo, Strohmer, and Vershynin. Our proof provides an efficient algorithm for constructing $\mathcal{F}$ and leads to improved accuracy guarantees for $k$-anonymous or differentially private synthetic data. We also establish a connection between the above problem of minimizing the covariance loss and the pinning lemma from statistical physics, providing an alternate (and much simpler) algorithmic proof in the important case when $X \in \{\pm 1\}^m/\sqrt{m}$ almost surely.
翻译:以$mathbb{R ⁇ }} 美元计成一个随机矢量, 价值在$$mathbb{R ⁇ }} 美元, 以美元计值, 几乎肯定 $1 。 对于每 美元 3 美元, 我们显示, 存在一个由 $mathbb{R ⁇ m} 美元分割成 美元立方美元产生的 Sigma algebra $\ mathball $\ 美元 美元, 因此, 我们的证明为 $\ operatorname{Cov} (X) -\ aoperatoratornamename{Cov} (\ mathbb{E} [X\ mind\ mind\macal {F}) 。 对于每 美元 3 美元, 美元 3 美元, 几乎肯定 。 对于每 美元\\ f} f\\\\\\\\\\\\\\\ sm lis sm sm 美元, 几乎 3\ clasm com, 这是最符合暗的恒定的恒定不变的常态常态常数, 。 当我们从上面提供重要的统计学上的重要证据证明时, 我们在1 m 提供了重要的数据。