云大数据和计算技术周报（第45期）

2018 年 5 月 6 日 大数据和云计算技术 社区编辑部

写在第45期

“大数据” 三个字其实是个marketing语言，从技术角度看，包含范围很广，计算、存储、网络都涉及，知识点广、学习难度高。

本期会给大家奉献上精彩的：分布式锁、开源软件名字来源、Kafka消息格式、数据处理方式比较、Apache Kylin、Spark Streaming 、Spark Core、HBase运维基础。全是干货，希望大家喜欢！！！

#大数据和云计算技术社区#希望通过坚持定期分享能帮助同学在大数据学习道路上尽一份微博之力。相信长期坚持认真阅读周报的同学，在技术的道路上一定会日益精进！感谢编辑们的长期坚持！也请同学们继续打赏，支持社区，支持编辑们持续奉献高质量知识！

#大数据和云计算技术社区#长期招募有兴趣参与社区编辑和运营的同学，欢迎扫描文末二维码联系（参与社区工作，收获知识和进步，还有红包哦）。

特别提醒，文末有惊喜！

以下是正文，限于众编辑水平有限，不保证大家都喜欢。

１

分布式锁

锁的作用是让多个线程同步（one by one）去执行一段代码（访问某个资源，如多个线程访问同一个账户），所以锁的概念是针对多线程而言的。

https://mp.weixin.qq.com/s/foy4l6YWAWvOpH6_elkADg

开源软件名字来源

今天我们一起来看看这11个开源项目的名字是怎么来的

https://mp.weixin.qq.com/s/WQ1W7HfoCoZ5marBGIGRUA

Kafka消息格式

对于一个成熟的消息中间件而言，消息格式不仅关系到功能维度的扩展，还牵涉到性能维度的优化。随着Kafka的迅猛发展，其消息格式也在不断的升级改进，从0.8.x版本开始到现在的1.1.x版本，Kafka的消息格式也经历了3个版本。本文这里主要来讲述Kafka的三个版本的消息格式的演变。

https://mp.weixin.qq.com/s/Z4Z18dJ3wZO3kF5ycxFf-g

数据处理方式比较

对数据的处理，有ETL方式；有写MapReduce，有Hive和Spark进行数据清洗等几种方式，可以说每种方式都有各自的使用场景，文中对不同的使用场景做了分别的阐述

https://mp.weixin.qq.com/s/S4cDZDckil1LfCjeyHu2jg

Apache Kylin

本文主要通过 Apache Kylin 线上查询机大量线程 Blocked Case 的分析过程，说明在 Apache Kylin 中 SQL 使用正确数据类型的重要性，最后再通过我近期解决的一些实际问题，来简单总结下计算机工程师解决问题的常规思路和手段。

https://mp.weixin.qq.com/s/lzG9c1_avHExmkZrRJmG0Q

Spark Streaming

本文结合Spark官网Demo以及作者的实践，详细讲解了Spark从不同数据源获取数据并进行并行处理的一些基本技巧和核心概念，对初学者了解Spark大有裨益，也是了解Spark Streaming编程技巧的入门指南。

http://www.cnblogs.com/swordfall/p/8378000.html

Spark Core

sorted shuffle write 流程上来说：将shuffleMapTask的结果写内存，写的时候会抽样扩内存，到一定上限的时候将数据spill物化，在写硬盘的过程中根据需要以partition以及key作为key进行排序，排序是类似于归并外排的方法。如果需要在map端聚合用PartitionedAppendOnlyMap这个数据结构、不需要在map端聚会用PartitionedPairBuffer这个数据结构。map端是如何知道呢，因为map 端持有下游rdd（下一个stage ）的 dependency，这个东西里面就有一系列map操作的指导信息。

https://www.jianshu.com/p/ac41682c5d16

HBase运维基础

本文就HBase运维的原理基础开始入手，重点讲解数据完整性，以及元数据“逆向工程”恢复数据完整性的原理方法。开启后续一系列的HBase运维知识讲解。

https://mp.weixin.qq.com/s/yt4X2tDQrLx35NsviRHbPg

009

开心一刻

有位大爷去人民银行取钱，直接走到窗口，保安过来说：“大爷，按号。” 大爷：“啥？” 保安：“按号。” 大爷心想，不愧是大银行呀，取个钱还要暗号，于是低声对保安说：“天王盖地虎。” 保安无奈的帮老爷子按出一张排队票，老爷子心想：吓死我了，居然被我蒙对了！！

致谢：

魏宏斌、薛述强、刘彬、刘超、廖程鹏、董言、吕西金、朱洁、蓝随、黄文辉

相关内容

Spark

关注 0

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

【实用书】Python爬虫Web抓取数据，第二版，306页pdf

专知会员服务

122+阅读 · 2020年5月10日

【WWW2020】知识图谱中的实体摘要:算法、评价和应用，123页ppt

专知会员服务

86+阅读 · 2020年4月25日

【实用书】流数据处理，Streaming Data，219页pdf

专知会员服务

78+阅读 · 2020年4月24日

【干货书】Elasticsearch入门学习权威指南，719页pdf教您构建分布式实时搜索和分析引擎

专知会员服务

60+阅读 · 2020年4月15日