Identifying discrete patterns in binary data is an important dimensionality reduction tool in machine learning and data mining. In this paper, we consider the problem of low-rank binary matrix factorisation (BMF) under Boolean arithmetic. Due to the hardness of this problem, most previous attempts rely on heuristic techniques. We formulate the problem as a mixed integer linear program and use a large scale optimisation technique of column generation to solve it without the need of heuristic pattern mining. Our approach focuses on accuracy and on the provision of optimality guarantees. Experimental results on real world datasets demonstrate that our proposed method is effective at producing highly accurate factorisations and improves on the previously available best known results for 15 out of 24 problem instances.


翻译:在机器学习和数据挖掘中,识别二元数据中的离散模式是一个重要的维度减少工具。在本文中,我们考虑了在布林算术中低级别二元矩阵因子化的问题。由于这一问题的难度,大多数先前的尝试都依赖于脂质技术。我们将这一问题作为一个混合整数线程序来表述,并使用大规模生成柱子的优化技术来解决这个问题,而无需使用超自然模式的采矿。我们的方法侧重于准确性和提供最佳性保障。关于真实世界数据集的实验结果表明,我们所提议的方法在为24个问题案例中的15个案例提供高度准确的因子化和改进以前已知的最佳结果方面是有效的。

0
下载
关闭预览

相关内容

Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
105+阅读 · 2020年5月3日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
17+阅读 · 2019年10月9日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
14+阅读 · 2019年4月13日
已删除
将门创投
8+阅读 · 2019年1月30日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
无问西东,只问哈希
线性资本
3+阅读 · 2018年1月18日
优化哈希策略
ImportNew
5+阅读 · 2018年1月17日
大数据的分布式算法
待字闺中
3+阅读 · 2017年6月13日
Arxiv
0+阅读 · 2021年10月2日
Arxiv
0+阅读 · 2021年10月1日
Arxiv
0+阅读 · 2021年9月30日
Arxiv
9+阅读 · 2021年3月8日
Arxiv
6+阅读 · 2018年4月21日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
14+阅读 · 2019年4月13日
已删除
将门创投
8+阅读 · 2019年1月30日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
无问西东,只问哈希
线性资本
3+阅读 · 2018年1月18日
优化哈希策略
ImportNew
5+阅读 · 2018年1月17日
大数据的分布式算法
待字闺中
3+阅读 · 2017年6月13日
相关论文
Top
微信扫码咨询专知VIP会员