现代应用中生成的数据量可能非常大,超出了我们方便地传输、存储和索引的能力。对于许多场景,我们更希望构建一个小得多的数据集的紧凑摘要。作为某种近似的交换,我们获得了可以回答一系列不同类型的数据查询的灵活而有效的工具。这本书提供了对主题数据总结的全面介绍,展示了算法、它们的行为和它们操作的数学基础。该覆盖从简单的和和近似的计数开始,构建更高级的概率结构,如Bloom Filter,独特的价值摘要,草图和分位数摘要。摘要用于描述特定类型的数据,如几何数据、图形、向量和矩阵。在整个过程中,给出了示例、伪代码和应用程序,以增强理解。
http://dimacs.rutgers.edu/~graham/ssbd.html
这项工作的目的是描述和解释用于处理大数据的摘要,并比较数据摘要所接受的数据形式及其使用的灵活性。它遵循一种相当技术性的方法,依次描述每个摘要。它列出了可以汇总的数据类型,以及可以对汇总执行哪些操作以在其中包含更多数据,并提取关于汇总数据的信息。