用于基于 Schemaless LSM 的文档库的列式格式 (Columnar Formats for Schemaless LSM-based Document Stores) - 专知论文

会员服务 ·

0

Performer · Storage · Dremel · MoDELS · 列 ·

2021 年 11 月 22 日

Columnar Formats for Schemaless LSM-based Document Stores

翻译：用于基于 Schemaless LSM 的文档库的列式格式

Wail Y. Alkowaileet,Michael J. Carey

In the last decade, document store database systems have gained more traction for storing and querying large volumes of semi-structured data. However, the flexibility of the document stores' data models has limited their ability to store data in a columnar-major layout - making them less performant for analytical workloads than column store relational databases. In this paper, we propose several techniques based on piggy-backing on Log-Structured Merge (LSM) tree events and tailored to document stores to store document data in a columnar layout. We first extend the Dremel format, a popular on-disk columnar format for semi-structured data, to comply with document stores' flexible data model. We then introduce two columnar layouts for organizing and storing data in LSM-based storage. We also highlight the potential of using query compilation techniques for document stores, where values' types are known only at runtime. We have implemented and evaluated our techniques to measure their impact on storage, data ingestion, and query performance in Apache AsterixDB. Our experiments show significant performance gains, improving the query execution time by orders of magnitude while minimally impacting ingestion performance.

翻译：在过去十年中,文件储存数据库系统在储存和查询大量半结构数据方面获得了更多的牵引力,然而,文件储存数据模型的灵活性限制了它们将数据储存在单列主要版式中的能力,使其在分析工作量方面的性能低于专列储存关系数据库。在本文件中,我们提出了基于在日志结构合并(LSM)上搭载技术的若干技术,并专门设计了用于在专栏版版中储存文件数据的文件储存库。我们首先扩展了Dremel格式,即半结构数据流行的在Disk分栏式格式,以遵守文件储存的灵活数据模型。我们随后在基于 LSM 的存储中引入了两个专列布局来组织和储存数据。我们还强调了对文件储存库使用查询汇编技术的潜力,因为这里的数值只是在运行时才知道。我们实施并评价了我们的技术,以衡量其对Apaci Asterix DB的储存、数据摄取和查询性的影响。我们的实验显示,取得了重大的业绩收益,按数量改进了查询时间,同时对业绩的影响最小化。

0

相关内容

Performer

【干货书】开放数据结构，Open Data Structures，337页pdf

【干货书】开放数据结构，Open Data Structures，337页pdf

专知会员服务

18+阅读 · 2021年9月17日

【NUS-Xavier 教授】图神经网络应用概述，15页ppt

专知会员服务

54+阅读 · 2021年6月30日

剑桥大学《数据科学: 原理与实践》课程，附PPT下载

剑桥大学《数据科学: 原理与实践》课程，附PPT下载

专知会员服务

54+阅读 · 2021年1月20日

迁移学习简明教程，11页ppt

迁移学习简明教程，11页ppt

专知会员服务

109+阅读 · 2020年8月4日

一份简单《图神经网络》教程，28页ppt

一份简单《图神经网络》教程，28页ppt

专知会员服务

127+阅读 · 2020年8月2日

Linux导论，Introduction to Linux，96页ppt

Linux导论，Introduction to Linux，96页ppt

专知会员服务

82+阅读 · 2020年7月26日

神经网络序列数据建模，229页ppt，Modeling Sequential Data with Neural Nets

神经网络序列数据建模，229页ppt，Modeling Sequential Data with Neural Nets

专知会员服务

67+阅读 · 2020年7月25日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

163+阅读 · 2019年10月12日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

【TED】生命中的每一年的智慧

【TED】生命中的每一年的智慧

英语演讲视频每日一推

10+阅读 · 2019年1月29日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

carla 学习笔记

carla 学习笔记

CreateAMind

9+阅读 · 2018年2月7日

carla无人驾驶模拟中文项目 carla_simulator_Chinese

carla无人驾驶模拟中文项目 carla_simulator_Chinese

CreateAMind

3+阅读 · 2018年1月30日

计算机视觉近一年进展综述

计算机视觉近一年进展综述

机器学习研究会

9+阅读 · 2017年11月25日

【推荐】自然语言处理（NLP）指南

【推荐】自然语言处理（NLP）指南

机器学习研究会

35+阅读 · 2017年11月17日

【推荐】免费书(草稿)：数据科学的数学基础

【推荐】免费书(草稿)：数据科学的数学基础

机器学习研究会

20+阅读 · 2017年10月1日

【论文】图上的表示学习综述

【论文】图上的表示学习综述

机器学习研究会

15+阅读 · 2017年9月24日

【推荐】RNN/LSTM时序预测

【推荐】RNN/LSTM时序预测

机器学习研究会

25+阅读 · 2017年9月8日

BinGo: Pinpointing Concurrency Bugs in Go via Binary Analysis

Arxiv

0+阅读 · 2022年1月26日

Twitter-Demographer: A Flow-based Tool to Enrich Twitter Data

Twitter-Demographer: A Flow-based Tool to Enrich Twitter Data

Arxiv

1+阅读 · 2022年1月26日

No evidence for an association between gender equality and pathogen prevalence -- a comment on Varnum and Grossmann 2017

Arxiv

0+阅读 · 2022年1月26日

Serving Deep Learning Models with Deduplication from Relational Databases

Arxiv

0+阅读 · 2022年1月25日

Poolingformer: Long Document Modeling with Pooling Attention

Arxiv

14+阅读 · 2021年5月10日

Time-Series Event Prediction with Evolutionary State Graph

Arxiv

14+阅读 · 2020年11月25日

Language Models as Knowledge Bases?

Arxiv

6+阅读 · 2019年9月4日

Graph-Based Recommendation System

Graph-Based Recommendation System

Arxiv

4+阅读 · 2018年7月31日

Structuring Wikipedia Articles with Section Recommendations

Arxiv

5+阅读 · 2018年4月17日

QA4IE: A Question Answering based Framework for Information Extraction

Arxiv

4+阅读 · 2018年4月10日

VIP会员

文章信息

相关主题

相关VIP内容

【干货书】开放数据结构，Open Data Structures，337页pdf

【干货书】开放数据结构，Open Data Structures，337页pdf

专知会员服务

18+阅读 · 2021年9月17日

【NUS-Xavier 教授】图神经网络应用概述，15页ppt

专知会员服务

54+阅读 · 2021年6月30日

剑桥大学《数据科学: 原理与实践》课程，附PPT下载

剑桥大学《数据科学: 原理与实践》课程，附PPT下载

专知会员服务

54+阅读 · 2021年1月20日

迁移学习简明教程，11页ppt

迁移学习简明教程，11页ppt

专知会员服务

109+阅读 · 2020年8月4日

一份简单《图神经网络》教程，28页ppt

一份简单《图神经网络》教程，28页ppt

专知会员服务

127+阅读 · 2020年8月2日

Linux导论，Introduction to Linux，96页ppt

Linux导论，Introduction to Linux，96页ppt

专知会员服务

82+阅读 · 2020年7月26日

神经网络序列数据建模，229页ppt，Modeling Sequential Data with Neural Nets

神经网络序列数据建模，229页ppt，Modeling Sequential Data with Neural Nets

专知会员服务

67+阅读 · 2020年7月25日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

163+阅读 · 2019年10月12日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《俄乌战争中的无人系统：新的战争方式与新兴趋势——来自前线的印象》报告

《海上自主水面船舶远程操作中心：安全可持续运行的多维度分析》

多模态大语言模型下游调优中“保持自我”的重要性

隐身自主无人水下航行器技术如何变革水下作战并重塑海军竞争

相关资讯

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

【TED】生命中的每一年的智慧

【TED】生命中的每一年的智慧

英语演讲视频每日一推

10+阅读 · 2019年1月29日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

carla 学习笔记

carla 学习笔记

CreateAMind

9+阅读 · 2018年2月7日

carla无人驾驶模拟中文项目 carla_simulator_Chinese

carla无人驾驶模拟中文项目 carla_simulator_Chinese

CreateAMind

3+阅读 · 2018年1月30日

计算机视觉近一年进展综述

计算机视觉近一年进展综述

机器学习研究会

9+阅读 · 2017年11月25日

【推荐】自然语言处理（NLP）指南

【推荐】自然语言处理（NLP）指南

机器学习研究会

35+阅读 · 2017年11月17日

【推荐】免费书(草稿)：数据科学的数学基础

【推荐】免费书(草稿)：数据科学的数学基础

机器学习研究会

20+阅读 · 2017年10月1日

【论文】图上的表示学习综述

【论文】图上的表示学习综述

机器学习研究会

15+阅读 · 2017年9月24日

【推荐】RNN/LSTM时序预测

【推荐】RNN/LSTM时序预测

机器学习研究会

25+阅读 · 2017年9月8日

相关论文

BinGo: Pinpointing Concurrency Bugs in Go via Binary Analysis

Arxiv

0+阅读 · 2022年1月26日

Twitter-Demographer: A Flow-based Tool to Enrich Twitter Data

Twitter-Demographer: A Flow-based Tool to Enrich Twitter Data

Arxiv

1+阅读 · 2022年1月26日

No evidence for an association between gender equality and pathogen prevalence -- a comment on Varnum and Grossmann 2017

Arxiv

0+阅读 · 2022年1月26日

Serving Deep Learning Models with Deduplication from Relational Databases

Arxiv

0+阅读 · 2022年1月25日

Poolingformer: Long Document Modeling with Pooling Attention

Arxiv

14+阅读 · 2021年5月10日

Time-Series Event Prediction with Evolutionary State Graph

Arxiv

14+阅读 · 2020年11月25日

Language Models as Knowledge Bases?

Arxiv

6+阅读 · 2019年9月4日

Graph-Based Recommendation System

Graph-Based Recommendation System

Arxiv

4+阅读 · 2018年7月31日

Structuring Wikipedia Articles with Section Recommendations

Arxiv

5+阅读 · 2018年4月17日

QA4IE: A Question Answering based Framework for Information Extraction

Arxiv

4+阅读 · 2018年4月10日

微信扫码咨询专知VIP会员