大数据和云计算技术周报(第117期)

2019 年 8 月 26 日 大数据和云计算技术



导语

“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。

    

本期会给大家奉献上精彩的:Spark、AI、MongoDB、微服务、HBase、Kubernetes、java。全是干货,希望大家喜欢!!!



1Spark

本文总结 Apache Spark 社区最近为增强 Spark 2.3 中的列存储而做的工作。列式存储被称为保持列连续性的有效格式。以前版本的 Spark 在一些地方使用了列式存储,并将其作为一种内部数据结构。Spark 2.3 之前使用列式存储来读取 Apache Parquet 文件并在 SQL 中缓存这些表,但是使用了不同的内部 API 访问这些列式存储,这种差异导致表缓存的性能低效。Spark 2.3 发布了一个抽象类 ColumnVector 作为公共 API,使用 ColumnVector 可以使得 Spark 有效地支持多个柱状存储,并提高了性能。通过 ColumnVector 读取 Apache Arrow 和 Apache ORC 中的数据,而无需额外的数据转换和数据复制。

https://mp.weixin.qq.com/s/7YzTBu34JCTSSN6_6Am6pg


在使用 Spark 和 Spark Streaming 时,当我们将应用部署在集群上时,可能会碰到运行慢、占用过多资源、不稳定等问题,这时需要做一些优化才能达到最好的性能。有时候一个简单的优化可以起到化腐朽为神奇的作用,使得程序能够更加有效率,也更加节省资源。本文我们就来介绍一些能够提高应用性能的参数和配置。

https://mp.weixin.qq.com/s/YpP4a8Xcu23lhYRjWOFbdQ


2hbase

hbase加搜索索引

https://mp.weixin.qq.com/s/l4nnhskuz7LdQYVhPQ0lEg


3Mysql

聊聊数据库优化,作者从数据库优化的法则、如何优化,以及如何设计索引, 以及查看执行计划,让你对数据库优化有新的认识

https://juejin.im/post/5d5b8974e51d4561d41d2dec?utm_source=gold_browser_extension



4数据中台

本篇文章我们谈了数据系统架构下的核心组件以及关于存储组件的选型,介绍了派生数据体系这一设计理念。在派生数据体系下我们能更好的理清存储组件间的数据流关系,也基于此我们对结构化大数据存储这一组件提了几个关键需求。

https://mp.weixin.qq.com/s/52BSpgTcZ7MJ__39RcQfPg


5Kubernetes

本文将介绍美团点评Kubernetes集群管理与使用实践,包括美团点评集群管理与调度系统介绍、Kubernetes管理与实践、Kubernetes优化与改造以及资源管理与优化等。

https://mp.weixin.qq.com/s/lYDYzEUlvXQhCO1xCJ7HAg


6系统架构

对于一个C2C平台来说,如何以最小的成本完成商品的结构化?本文给出了闲鱼亿级商品结构化背后的思考和演进。

https://mp.weixin.qq.com/s/AiF7VtrMvOoWKZymniAsvA


7微服务

主要介绍基于支付场景下的微服务实践,微服务体现的真谛最终还是要理解业务,只有深入理解了业务才能结合领域来重新定义微服务

https://mp.weixin.qq.com/s/0G16QHQVHuHqaKRKpglkcA


8AI

本次分享将以群体风险感知为例,从需求挖掘、数据挖掘、建模再到最终的模型部署应用,详细介绍全流程的风控建模方案。下面将从这几个方面出发,详细的讲解具体流程中的概念,同时会给出每个流程中的目标、实现方法、交付物,让同学们在具体实践的时候有目标,有方法。

https://mp.weixin.qq.com/s/wHOhl_jH-ZdJGXz1dN0u8w


9MongoDB

本文讲述了MongoDB 4.2的正式上线,MongoDB 4.2的主要特点分布式事务,按需式物化视图,通配符索引功能,可重试的读写功能。

http://www.mongoing.com/archives/28037




10AI

大多数时候,贝叶斯统计在结果在最好的情况下是魔法,在最糟糕时是一种完全主观的废话。在用到贝叶斯方法的理论体系中,马尔可夫链蒙特卡洛方法尤其神秘。

这篇文章将介绍马尔可夫链蒙特卡洛方法,极其背后的基本数学推理。

https://www.cnblogs.com/fangbei/p/8409122.html

11开心一刻

啥叫职业病?职业病就是作为一个IT民工,如果有一天5点钟就下班,你会很无比内疚;如果连续两天5点下班,你会无比自责;如果连续三天5点下班,你会严重怀疑公司是不是准备把你给炒了

致谢:

周蓬勃、王在道、孙亚飞、冯艺帆、陈少军、邓开表、张少华、薛述强、刘彬、刘超、廖程鹏、董言、吕西金、朱洁、蓝随、黄文辉、郭飞


猜你喜欢

#大数据和云计算机技术社区#博客精选(2017)

NoSQL 还是 SQL ?这一篇讲清楚

阿里的OceanBase解密

#大数据和云计算技术#: "四有"社区介绍

大数据和云计算技术周报(第56期)

新数仓系列:Hbase周边生态梳理(1)

《大数据架构详解》第2次修订说明

简单梳理跨数据中心数据库

云观察系列:漫谈运营商公有云发展史

云观察系列:百度云的一波三折

云观察系列:阿里云战略观察

超融合方案分析系列(7)思科超融合方案分析

加入技术讨论群

《大数据和云计算技术》社区群人数已经6000+,欢迎大家加下面助手微信,拉大家进群,自由交流。


喜欢QQ群的,可以扫描下面二维码:

欢迎大家通过二维码打赏支持技术社区(英雄请留名,社区感谢您,打赏次数超过108+):


登录查看更多
0

相关内容

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
【干货书】现代数据平台架构,636页pdf
专知会员服务
254+阅读 · 2020年6月15日
【实用书】Python技术手册,第三版767页pdf
专知会员服务
235+阅读 · 2020年5月21日
专知会员服务
31+阅读 · 2020年5月20日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
117+阅读 · 2020年5月10日
专知会员服务
124+阅读 · 2020年3月26日
【阿里技术干货】知识结构化在阿里小蜜中的应用
专知会员服务
97+阅读 · 2019年12月14日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
137+阅读 · 2019年12月12日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
【LinkedIn报告】深度自然语言处理的搜索系统,211页pdf
专知会员服务
107+阅读 · 2019年6月21日
携程用ClickHouse轻松玩转每天十亿级数据更新
DBAplus社群
11+阅读 · 2019年8月6日
浅谈 Kubernetes 在生产环境中的架构
DevOps时代
11+阅读 · 2019年5月8日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
人工智能大数据平台中Golang的应用实践
MomentaAI
5+阅读 · 2018年9月27日
终于有人把云计算、大数据和人工智能讲明白了
Python开发者
3+阅读 · 2018年6月13日
终于有人把云计算、大数据和人工智能讲明白了!
大数据技术
7+阅读 · 2018年4月2日
《大数据架构详解:从数据获取到深度学习》第⑨次重印
大数据和云计算技术
3+阅读 · 2018年3月3日
《大数据架构详解:从数据获取到深度学习》第八次重印
大数据和云计算技术
5+阅读 · 2017年12月24日
A Survey on Edge Intelligence
Arxiv
52+阅读 · 2020年3月26日
Arxiv
102+阅读 · 2020年3月4日
Arxiv
3+阅读 · 2018年11月29日
Knowledge Based Machine Reading Comprehension
Arxiv
4+阅读 · 2018年9月12日
Arxiv
4+阅读 · 2018年4月29日
VIP会员
相关VIP内容
【干货书】现代数据平台架构,636页pdf
专知会员服务
254+阅读 · 2020年6月15日
【实用书】Python技术手册,第三版767页pdf
专知会员服务
235+阅读 · 2020年5月21日
专知会员服务
31+阅读 · 2020年5月20日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
117+阅读 · 2020年5月10日
专知会员服务
124+阅读 · 2020年3月26日
【阿里技术干货】知识结构化在阿里小蜜中的应用
专知会员服务
97+阅读 · 2019年12月14日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
137+阅读 · 2019年12月12日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
【LinkedIn报告】深度自然语言处理的搜索系统,211页pdf
专知会员服务
107+阅读 · 2019年6月21日
相关资讯
携程用ClickHouse轻松玩转每天十亿级数据更新
DBAplus社群
11+阅读 · 2019年8月6日
浅谈 Kubernetes 在生产环境中的架构
DevOps时代
11+阅读 · 2019年5月8日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
人工智能大数据平台中Golang的应用实践
MomentaAI
5+阅读 · 2018年9月27日
终于有人把云计算、大数据和人工智能讲明白了
Python开发者
3+阅读 · 2018年6月13日
终于有人把云计算、大数据和人工智能讲明白了!
大数据技术
7+阅读 · 2018年4月2日
《大数据架构详解:从数据获取到深度学习》第⑨次重印
大数据和云计算技术
3+阅读 · 2018年3月3日
《大数据架构详解:从数据获取到深度学习》第八次重印
大数据和云计算技术
5+阅读 · 2017年12月24日
Top
微信扫码咨询专知VIP会员