The Min-Hashing approach to sketching has become an important tool in data analysis, search, and classification. To apply it to real-valued datasets, the ICWS algorithm has become a seminal approach that is widely used, and provides state-of-the-art performance for this problem space. However, ICWS suffers a computational burden as the sketch size K increases. We develop a new Simplified approach to the ICWS algorithm, that enables us to obtain over 20x speedups compared to the standard algorithm. The veracity of our approach is demonstrated empirically on multiple datasets, showing that our new Simplified CWS obtains the same quality of results while being an order of magnitude faster.


翻译:草图绘制的“ 最小” 方法已成为数据分析、搜索和分类的一个重要工具。 为了将其应用到实际估价的数据集中, ICWS 算法已经成为一种开创性方法,被广泛使用,为问题空间提供了最先进的性能。 然而,随着草图大小K的增大,ICWS 也承受着计算负担。 我们开发了一种新的简化方法,用于ICWS 算法,这使我们能够获得与标准算法相比的20倍以上的超速。 我们方法的真实性在多个数据集上得到了经验性的证明,表明我们新的简化的 CWS 获得了同样质量的结果,而其规模则更快。

0
下载
关闭预览

相关内容

国际Web服务会议(ICWS)是研究人员和行业从业人员交流基于Web服务的最新技术和实践进展、确定新的研究主题和定义基于Web服务的未来的主要国际论坛。所有关于基于Web的服务生命周期研究和管理的主题都与ICWS的主题保持一致。2019年,该会议将努力推进规模最大的互联网/网络服务国际专业论坛。官网链接:https://conferences.computer.org/icws/2019/
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
7+阅读 · 2020年3月1日
Arxiv
3+阅读 · 2018年2月24日
VIP会员
Top
微信扫码咨询专知VIP会员