Across many data domains, co-occurrence statistics about the joint appearance of objects are powerfully informative. By transforming unsupervised learning problems into decompositions of co-occurrence statistics, spectral algorithms provide transparent and efficient algorithms for posterior inference such as latent topic analysis and community detection. As object vocabularies grow, however, it becomes rapidly more expensive to store and run inference algorithms on co-occurrence statistics. Rectifying co-occurrence, the key process to uphold model assumptions, becomes increasingly more vital in the presence of rare terms, but current techniques cannot scale to large vocabularies. We propose novel methods that simultaneously compress and rectify co-occurrence statistics, scaling gracefully with the size of vocabulary and the dimension of latent space. We also present new algorithms learning latent variables from the compressed statistics, and verify that our methods perform comparably to previous approaches on both textual and non-textual data.


翻译:光谱算法通过将未经监督的学习问题转化为共同统计的分解,为潜在主题分析和社区探测等后推推法提供了透明有效的算法。然而,随着对象词汇的不断增长,存储和运行共同发生统计的推算法的成本迅速增加。校正共同发生,即维护模型假设的关键过程,在存在罕见条件的情况下变得越来越重要,但当前技术无法推广到大型词汇组。我们提出了同时压缩和纠正共同发生统计的新方法,与词汇的大小和潜在空间的维度相匹配。我们还介绍了从压缩统计数据中学习潜在变量的新算法,并核实我们的方法与以往的文字和非文字数据方法的兼容性。

0
下载
关闭预览

相关内容

专知会员服务
28+阅读 · 2021年8月2日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
计算机 | USENIX Security 2020等国际会议信息5条
Call4Papers
7+阅读 · 2019年4月25日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
A causal view on compositional data
Arxiv
0+阅读 · 2022年1月14日
Arxiv
7+阅读 · 2021年10月12日
Memory-Gated Recurrent Networks
Arxiv
12+阅读 · 2020年12月24日
Arxiv
110+阅读 · 2020年2月5日
Arxiv
7+阅读 · 2018年3月21日
VIP会员
相关VIP内容
专知会员服务
28+阅读 · 2021年8月2日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
相关论文
A causal view on compositional data
Arxiv
0+阅读 · 2022年1月14日
Arxiv
7+阅读 · 2021年10月12日
Memory-Gated Recurrent Networks
Arxiv
12+阅读 · 2020年12月24日
Arxiv
110+阅读 · 2020年2月5日
Arxiv
7+阅读 · 2018年3月21日
Top
微信扫码咨询专知VIP会员