本期会给大家奉献上精彩的:分布式锁、开源软件名字来源、Kafka消息格式、数据处理方式比较、Apache Kylin、Spark Streaming 、Spark Core、HBase运维基础。全是干货,希望大家喜欢!!!
#大数据和云计算技术社区#希望通过坚持定期分享能帮助同学在大数据学习道路上尽一份微博之力。相信长期坚持认真阅读周报的同学,在技术的道路上一定会日益精进!感谢编辑们的长期坚持!也请同学们继续打赏,支持社区,支持编辑们持续奉献高质量知识!
#大数据和云计算技术社区#长期招募有兴趣参与社区编辑和运营的同学,欢迎扫描文末二维码联系(参与社区工作,收获知识和进步,还有红包哦)。
特别提醒,文末有惊喜!
以下是正文,限于众编辑水平有限,不保证大家都喜欢。
锁的作用是让多个线程同步(one by one)去执行一段代码(访问某个资源,如多个线程访问同一个账户),所以锁的概念是针对多线程而言的。
https://mp.weixin.qq.com/s/foy4l6YWAWvOpH6_elkADg
今天我们一起来看看这11个开源项目的名字是怎么来的
https://mp.weixin.qq.com/s/WQ1W7HfoCoZ5marBGIGRUA
对于一个成熟的消息中间件而言,消息格式不仅关系到功能维度的扩展,还牵涉到性能维度的优化。随着Kafka的迅猛发展,其消息格式也在不断的升级改进,从0.8.x版本开始到现在的1.1.x版本,Kafka的消息格式也经历了3个版本。本文这里主要来讲述Kafka的三个版本的消息格式的演变。
https://mp.weixin.qq.com/s/Z4Z18dJ3wZO3kF5ycxFf-g
对数据的处理,有ETL方式;有写MapReduce,有Hive和Spark进行数据清洗等几种方式,可以说每种方式都有各自的使用场景,文中对不同的使用场景做了分别的阐述
https://mp.weixin.qq.com/s/S4cDZDckil1LfCjeyHu2jg
本文主要通过 Apache Kylin 线上查询机大量线程 Blocked Case 的分析过程,说明在 Apache Kylin 中 SQL 使用正确数据类型的重要性,最后再通过我近期解决的一些实际问题,来简单总结下计算机工程师解决问题的常规思路和手段。
https://mp.weixin.qq.com/s/lzG9c1_avHExmkZrRJmG0Q
本文结合Spark官网Demo以及作者的实践,详细讲解了Spark从不同数据源获取数据并进行并行处理的一些基本技巧和核心概念,对初学者了解Spark大有裨益,也是了解Spark Streaming编程技巧的入门指南。
http://www.cnblogs.com/swordfall/p/8378000.html
sorted shuffle write 流程上来说:将shuffleMapTask的结果写内存,写的时候会抽样扩内存,到一定上限的时候将数据spill物化,在写硬盘的过程中根据需要以partition以及key作为key进行排序,排序是类似于归并外排的方法。如果需要在map端聚合用PartitionedAppendOnlyMap这个数据结构、不需要在map端聚会用PartitionedPairBuffer这个数据结构。map端是如何知道呢,因为map 端持有下游rdd(下一个stage )的 dependency,这个东西里面就有一系列map操作的指导信息。
https://www.jianshu.com/p/ac41682c5d16
本文就HBase运维的原理基础开始入手,重点讲解数据完整性,以及元数据“逆向工程”恢复数据完整性的原理方法。开启后续一系列的HBase运维知识讲解。
https://mp.weixin.qq.com/s/yt4X2tDQrLx35NsviRHbPg
有位大爷去人民银行取钱,直接走到窗口,保安过来说:“大爷,按号。” 大爷:“啥?” 保安:“按号。” 大爷心想,不愧是大银行呀,取个钱还要暗号,于是低声对保安说:“天王盖地虎。” 保安无奈的帮老爷子按出一张排队票,老爷子心想:吓死我了,居然被我蒙对了!!
致谢:
魏宏斌、薛述强、刘彬、刘超、廖程鹏、董言、吕西金、朱洁、蓝随、黄文辉
猜你喜欢
加入技术讨论群
《大数据和云计算技术》社区群人数已经3000+,欢迎大家加下面助手微信,拉大家进群,自由交流。
喜欢QQ群的,可以扫描下面二维码:
欢迎大家通过二维码打赏支持技术社区(英雄请留名,社区感谢您,打赏次数超过108+):