现代应用中生成的数据量可能非常大,超出了我们方便地传输、存储和索引的能力。对于许多场景,我们更希望构建一个小得多的数据集的紧凑摘要。作为某种近似的交换,我们获得了可以回答一系列不同类型的数据查询的灵活而有效的工具。这本书提供了对主题数据总结的全面介绍,展示了算法、它们的行为和它们操作的数学基础。该覆盖从简单的和和近似的计数开始,构建更高级的概率结构,如Bloom Filter,独特的价值摘要,草图和分位数摘要。摘要用于描述特定类型的数据,如几何数据、图形、向量和矩阵。在整个过程中,给出了示例、伪代码和应用程序,以增强理解。

http://dimacs.rutgers.edu/~graham/ssbd.html

这项工作的目的是描述和解释用于处理大数据的摘要,并比较数据摘要所接受的数据形式及其使用的灵活性。它遵循一种相当技术性的方法,依次描述每个摘要。它列出了可以汇总的数据类型,以及可以对汇总执行哪些操作以在其中包含更多数据,并提取关于汇总数据的信息。

成为VIP会员查看完整内容
41

相关内容

从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。
专知会员服务
143+阅读 · 2021年8月12日
【干货书】计算机科学家的数学,153页pdf
专知会员服务
171+阅读 · 2021年7月27日
专知会员服务
65+阅读 · 2021年7月18日
专知会员服务
56+阅读 · 2021年7月6日
【经典书】高维概率数据科学应用导论,301页pdf
专知会员服务
89+阅读 · 2021年6月17日
【干货书】管理统计和数据科学原理,678页pdf
专知会员服务
182+阅读 · 2020年7月29日
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
90+阅读 · 2020年6月28日
【干货书】现代数据平台架构,636页pdf
专知会员服务
253+阅读 · 2020年6月15日
干货书《数据科学数学系基础》2020最新版,266页pdf
专知会员服务
319+阅读 · 2020年3月23日
机器学习速查手册,135页pdf
专知会员服务
340+阅读 · 2020年3月15日
【干货书】计算机科学离散数学,627页pdf
专知
61+阅读 · 2020年8月31日
PySpark和大数据处理初探
Python程序员
7+阅读 · 2019年10月10日
Arxiv
0+阅读 · 2021年9月5日
Arxiv
4+阅读 · 2018年3月14日
Arxiv
5+阅读 · 2017年4月12日
VIP会员
相关主题
相关VIP内容
专知会员服务
143+阅读 · 2021年8月12日
【干货书】计算机科学家的数学,153页pdf
专知会员服务
171+阅读 · 2021年7月27日
专知会员服务
65+阅读 · 2021年7月18日
专知会员服务
56+阅读 · 2021年7月6日
【经典书】高维概率数据科学应用导论,301页pdf
专知会员服务
89+阅读 · 2021年6月17日
【干货书】管理统计和数据科学原理,678页pdf
专知会员服务
182+阅读 · 2020年7月29日
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
90+阅读 · 2020年6月28日
【干货书】现代数据平台架构,636页pdf
专知会员服务
253+阅读 · 2020年6月15日
干货书《数据科学数学系基础》2020最新版,266页pdf
专知会员服务
319+阅读 · 2020年3月23日
机器学习速查手册,135页pdf
专知会员服务
340+阅读 · 2020年3月15日
微信扫码咨询专知VIP会员