Factorization of matrices where the rank of the two factors diverges linearly with their sizes has many applications in diverse areas such as unsupervised representation learning, dictionary learning or sparse coding. We consider a setting where the two factors are generated from known component-wise independent prior distributions, and the statistician observes a (possibly noisy) component-wise function of their matrix product. In the limit where the dimensions of the matrices tend to infinity, but their ratios remain fixed, we expect to be able to derive closed form expressions for the optimal mean squared error on the estimation of the two factors. However, this remains a very involved mathematical and algorithmic problem. A related, but simpler, problem is extensive-rank matrix denoising, where one aims to reconstruct a matrix with extensive but usually small rank from noisy measurements. In this paper, we approach both these problems using high-temperature expansions at fixed order parameters. This allows to clarify how previous attempts at solving these problems failed at finding an asymptotically exact solution. We provide a systematic way to derive the corrections to these existing approximations, taking into account the structure of correlations particular to the problem. Finally, we illustrate our approach in detail on the case of extensive-rank matrix denoising. We compare our results with known optimal rotationally-invariant estimators, and show how exact asymptotic calculations of the minimal error can be performed using extensive-rank matrix integrals.


翻译:在两个因素的等级与其大小有线性差异的矩阵的量化方面,这两个因素的等级在不同的领域,例如无人监督的代表性学习、字典学习或编码稀疏等,有许多应用。我们考虑的是两个因素来自已知的组件独立的先前分布,统计员观察的是其矩阵产品的一个(可能很吵的)部分功能。在矩阵的尺寸趋向无限但比率保持不变的限度内,我们期望能够为这两个因素的估计中的最佳平均正方差错误得出封闭的形式表达方式。然而,这仍然是一个非常涉及数学和算法的问题。一个相关但更简单的问题是一个大层次的矩阵脱色化,其中一个人的目的是重建矩阵,从杂乱的测量中得出广泛但通常很小的等级。在本文中,我们用固定的顺序参数高温度的扩展来处理这些问题。这样就可以澄清以前解决这些问题的尝试如何未能找到一个简单准确的本性解决方案。我们以系统的方法来对这些现有的近似的校正进行校正,我们考虑到我们所了解的精确的矩阵的精确性分析结果,最后我们用最深层次的模型来说明我们所了解的精确的模型的精确性结果。

0
下载
关闭预览

相关内容

NeurIPS 2021 | 寻MixTraining: 一种全新的物体检测训练范式
专知会员服务
12+阅读 · 2021年12月9日
专知会员服务
39+阅读 · 2021年8月20日
专知会员服务
77+阅读 · 2021年3月16日
因果图,Causal Graphs,52页ppt
专知会员服务
248+阅读 · 2020年4月19日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
已删除
将门创投
12+阅读 · 2018年6月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
9+阅读 · 2021年3月8日
VIP会员
相关资讯
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
已删除
将门创投
12+阅读 · 2018年6月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员