谷歌推出 Bigtable 联邦查询,实现零 ETL 数据分析

2022 年 8 月 25 日 InfoQ

作者 | Steef-Jan Wiggers
译者 | 明知山
策划 | 丁晓昀

最近,谷歌宣布 Bigtable 联邦查询普遍可用,用户通过 BigQuery 可以更快地查询 Bigtable 中的数据。此外,查询无需移动或复制所有谷歌云区域中的数据,增加了联邦查询并发性限制,从而缩小了运营数据和分析数据之间长期存在的差距。

BigQuery 是谷歌云的无服务器、多云数据仓库,通过将不同来源的数据汇集在一起来简化数据分析。Cloud Bigtable 是谷歌云的全托管 NoSQL 数据库,主要用于对时间比较敏感的事务和分析工作负载。后者适用于多种场景,如实时欺诈检测、推荐、个性化和时间序列。

在以前,用户需要使用 ETL 工具(如 Dataflow 或者自己开发的 Python 工具)将数据从 Bigtable 复制到 BigQuery。现在,他们可以直接使用 BigQuery SQL 查询数据。联邦查询 BigQuery 可以访问存储在 Bigtable 中的数据。

要查询 Bigtable 中的数据,用户可以通过指定 Cloud Bigtable URI(可以通过 Cloud Bigtable 控制台获得)为 Cloud Bigtable 数据源创建一个外部表。URI 包含以下这些内容:

  • 包含 Cloud Bigtable 实例的项目 ID——project_id;

  • Cloud Bigtable 实例 ID——instance_id;

  • 要使用的应用程序配置文件 ID——app_profile(可选);

  • 要查询的表名——table_name。

来源:https://cloud.google.com/blog/products/data-analytics/bigtable-bigquery-federation-brings-hot--cold-data-closer

在创建了外部表之后,用户就可以像查询 BigQuery 中的表一样查询 Bigtable。此外,用户还可以利用 BigQuery 的特性,比如 JDBC/ODBC 驱动程序、用于商业智能的连接器、数据可视化工具(Data Studio、Looker 和 Tableau 等),以及用于训练机器学习模型的 AutoML 表和将数据加载到模型开发环境中的 Spark 连接器。

大数据爱好者 Christian Laurer 在一篇文章中解释了 Bigtable 联邦查询的好处。

你可以使用这种新的方法克服传统 ETL 的一些缺点,如:

  1. 更多的数据更新(为你的业务提供最新的见解,没有小时级别甚至天级别的旧数据);

  2. 不需要为相同的数据存储支付两次费用(用户通常会在 Bigtable 中存储 TB 级甚至更多的数据);

  3. 减少 ETL 管道的监控和维护。

最后,关于 Bigtable 联邦查询的更多详细信息,请参阅官方的文档页。此外,所有受支持的 Cloud Bigtable 区域都可以使用新的联邦查询。

原文链接:

https://www.infoq.com/news/2022/08/bigtable-bigquery-zero-etl/

点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!

今日好文推荐

走进代码背后的世界,探索开发者的养成之道

Java 正在卷土重来?别开玩笑了,它明明一直很火

数十位研发发声:研发效能度量,别玩成了一场数字游戏

“华为 30 岁以下员工仅占 28%”上热搜;腾讯二季度净利润腰斩,员工减少超 5500 人;百度网盘回应人工审核用户照片|Q 资讯

登录查看更多
0

相关内容

谷歌公司(Google Inc.)成立于1998年9月4日,由拉里·佩奇和谢尔盖·布林共同创建,被公认为全球最大的搜索引擎。公司总部称为“Googleplex”,位于美国加州圣克拉拉县的芒廷维尤。业务包括互联网搜索、云计算、广告技术等,同时开发并提供大量基于互联网的产品与服务,其主要利润来自于AdWords等广告服务。
【干货书】强化学习Python真实数据与实例应用,110页pdf
专知会员服务
112+阅读 · 2022年10月13日
【Manning新书】MLOps工程规模化,344页pdf
专知会员服务
79+阅读 · 2022年5月4日
【干货书】利用 Python 进行数据分析,470页pdf
专知会员服务
112+阅读 · 2021年3月13日
专知会员服务
39+阅读 · 2020年12月1日
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
194+阅读 · 2020年6月29日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
通过 Java 来学习 Apache Beam
InfoQ
0+阅读 · 2022年6月29日
一起看 I/O | Android 开发工具最新更新
谷歌开发者
0+阅读 · 2022年5月20日
Spark & Hive 云原生改造在智领云的应用
CSDN
0+阅读 · 2022年4月8日
LinkedIn 数据分析技术栈的演进与实践
InfoQ
0+阅读 · 2022年2月26日
LinkedIn数据分析技术栈的演进之路
AI前线
0+阅读 · 2022年2月19日
亚马逊正在重塑 MLOps
InfoQ
3+阅读 · 2021年11月30日
【大数据】StreamSets:一个大数据采集工具
产业智能官
40+阅读 · 2018年12月5日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年11月29日
Arxiv
0+阅读 · 2022年11月29日
Arxiv
0+阅读 · 2022年11月29日
Arxiv
0+阅读 · 2022年11月28日
Arxiv
0+阅读 · 2022年11月24日
VIP会员
相关资讯
通过 Java 来学习 Apache Beam
InfoQ
0+阅读 · 2022年6月29日
一起看 I/O | Android 开发工具最新更新
谷歌开发者
0+阅读 · 2022年5月20日
Spark & Hive 云原生改造在智领云的应用
CSDN
0+阅读 · 2022年4月8日
LinkedIn 数据分析技术栈的演进与实践
InfoQ
0+阅读 · 2022年2月26日
LinkedIn数据分析技术栈的演进之路
AI前线
0+阅读 · 2022年2月19日
亚马逊正在重塑 MLOps
InfoQ
3+阅读 · 2021年11月30日
【大数据】StreamSets:一个大数据采集工具
产业智能官
40+阅读 · 2018年12月5日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员