MongoDB Atlas Data Lake 来了!可直接查询竞争对手AWS的S3

2019 年 6 月 20 日 高效开发运维

作者 | Dj Walker-Morgan
译者 | 田晓旭
近日,MongoDB 在 MongoDB World 上宣布了 MongoDB Atlas 家族的新成员——MongoDB Atlas Data Lake,目前已发布公开测试版本。MongoDB Atlas Data Lake 的出现将使得 MongoDB 可以应用于云大数据湖。随着企业在 Amazon S3 等云存储中积累的数据越来越多,他们对于如何有效处理这些数据的需求也越来越旺盛。

MongoDB Atlas Data Lake 可以使用 MongoDB 查询语言,该语言专为丰富、复杂的结构而构建,可以处理以 JSON、BSON、CSV、TSV、Avro 和 Parquet 格式存储的数据。数据按需分析,无需基础设施设置,无需耗时的转换、预处理或元数据管理。因为没有预先定义的架构,所以可以更快地处理数据。

作为 MongoDB Atlas 云数据平台中提供的按需服务,没有部署过程,只需要提供对 S3 存储桶的访问。用户可以使用与 MongoDB Atlas 操作集群相同的 UI 配置 Atlas Data Lake,通过一个简单的向导来配置权限,提供对 S3 存储桶的只读访问权限,将 S3 目录映射到数据库和集合,并使其做好运行查询的准备。

通过 MongoDB 查询语言,用户可以将一个技能集应用于数据湖和事务数据库。它不仅仅是与 Data Lake 一起使用的查询语言,而且也兼容 MongoDB 驱动程序、MongoDB Shell、MongoDB Compass 和 MongoDB BI Connector。这意味着使用 JavaScript、Perl、Python、C、C ++、Java、Ruby、Go、Scala、R 和许多其他语言编写的应用程序也可以使用 MongoDB 用户之前部署的驱动程序访问 Data Lake。数据科学家可以使用 R 驱动程序支持下的 R Studio 工具 或者 Python 驱动程序支持下的 Jupyter 笔记本来进行统计、机器学习和数据湖分析。

目前,MongoDB Atlas Data Lake 部署了多个计算节点来分析每个 S3 存储桶,并针对该存储桶的数据进行处理查询。这些节点并行工作,在桶区域中进行快速处理,能够最大限度地减少数据传输和相关成本。完成后,每个节点将其结果返回到中心节点,该节点根据需要对单独的结果进行排序、过滤、聚合为最终结果。

对于 Data Lake 用户,此过程完全透明,允许他们继续从工作中提取该数据的价值和洞察力。这意味着对应用于数据的并发查询没有限制,计算节点架构的未来增强也会对用户透明。

MongoDB Atlas Data Lake 旨在通过用户已有的数据湖中获得最佳效果,包含分析数据、构建数据服务、提供机器学习和 AI 以及构建活动档案。

原文链接

https://www.mongodb.com/blog/post/mongodb-atlas-data-lake-debuts-at-mongodb-world


活动推荐

QCon 全球软件开发大会(北京站)2019 已经圆满结束,QCon 上海 2019 即将起航,点击 「 阅读原文 」了解详情。大会 7 折早鸟票限时开售,现在报名立减 2640 元,团购可享更多优惠!有任何问题欢迎联系票务小姐姐 Ring ,电话:13269076283 微信:qcon-0410

登录查看更多
0

相关内容

MongoDB 是一种文件导向的 NoSQL 数据库,由 C++ 撰写而成。
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
117+阅读 · 2020年5月10日
【实用书】流数据处理,Streaming Data,219页pdf
专知会员服务
76+阅读 · 2020年4月24日
【SIGMOD2020-腾讯】Web规模本体可扩展构建
专知会员服务
29+阅读 · 2020年4月12日
【书籍推荐】简洁的Python编程(Clean Python),附274页pdf
专知会员服务
180+阅读 · 2020年1月1日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
【电子书推荐】Data Science with Python and Dask
专知会员服务
43+阅读 · 2019年6月1日
俄罗斯Yandex公司ClickHouse团队访问计算所
中国科学院网络数据重点实验室
13+阅读 · 2019年6月12日
VS Code Remote发布!真·远程开发
开源中国
6+阅读 · 2019年5月3日
亿级订单数据的访问与存储,怎么实现与优化?
码农翻身
16+阅读 · 2019年4月17日
百度开源项目OpenRASP快速上手指南
黑客技术与网络安全
5+阅读 · 2019年2月12日
OLAP引擎这么多,为什么苏宁选择用Druid?
51CTO博客
12+阅读 · 2018年12月20日
Python用法速查网站
Python程序员
17+阅读 · 2018年12月16日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
五步帮你实现用户画像的数据加工
云栖社区
6+阅读 · 2018年2月4日
Precise Detection in Densely Packed Scenes
Arxiv
3+阅读 · 2019年4月8日
Two Stream 3D Semantic Scene Completion
Arxiv
4+阅读 · 2018年7月16日
Arxiv
3+阅读 · 2018年3月2日
VIP会员
相关资讯
俄罗斯Yandex公司ClickHouse团队访问计算所
中国科学院网络数据重点实验室
13+阅读 · 2019年6月12日
VS Code Remote发布!真·远程开发
开源中国
6+阅读 · 2019年5月3日
亿级订单数据的访问与存储,怎么实现与优化?
码农翻身
16+阅读 · 2019年4月17日
百度开源项目OpenRASP快速上手指南
黑客技术与网络安全
5+阅读 · 2019年2月12日
OLAP引擎这么多,为什么苏宁选择用Druid?
51CTO博客
12+阅读 · 2018年12月20日
Python用法速查网站
Python程序员
17+阅读 · 2018年12月16日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
五步帮你实现用户画像的数据加工
云栖社区
6+阅读 · 2018年2月4日
Top
微信扫码咨询专知VIP会员