导语
“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。
本期会给大家奉献上精彩的:kylin、spark、DL、Hbase、OceanBase、gossip、MongoDB。全是干货,希望大家喜欢!!!
#大数据和云计算技术社区#希望通过坚持定期分享能帮助同学在大数据学习道路上尽一份微博之力。相信长期坚持认真阅读周报的同学,在技术的道路上一定会日益精进!感谢编辑们的长期坚持!也请同学们继续打赏,支持社区,支持编辑们持续奉献高质量知识!
#大数据和云计算技术社区#长期招募有兴趣参与社区编辑和运营的同学,欢迎扫描文末二维码联系(参与社区工作,收获知识和进步,还有红包哦)。
特别提醒,文末有惊喜!
以下是正文,限于众编辑水平有限,不保证大家都喜欢。(如果链接不能点开 请用二维码 谢谢)
1文本去重
本文主要介绍了基于 Apache HBase 与 Google SimHash 等多种算法共同实现的一套支持百亿级文本数据相似度计算与快速去重系统的设计与实现。
https://mp.weixin.qq.com/s/UZmksFBTKFzF4jrXGnw2fg
2Hbase
图的重要应用场景,好友推荐
https://mp.weixin.qq.com/s/AUn8qEaih9w--WbfxU46cQ
3OceanBase
OceanBase是一个通用的分布式的关系型数据库,有很多独特的特点。比如数据库的多租户、高可用、极致弹性伸缩能力。如果把OceanBase当作单库使用,就没有把OceanBase的分布式优势发挥到极致。
本文主要分享一个基于分布式架构的应用把OceanBase数据库的分布式优势发挥到极致所需要了解的OceanBase基础,这也是理解蚂蚁金服的基于OceanBase构建的三地五中心异地多活架构的基础。
https://mp.weixin.qq.com/s/a2dNOrdWzlxdniqYxcclqg
4kylin
eBay 大数据平台团队的马刚老师,为大家分享了 Kylin 的实时流式 OLAP 分析的新功能;特别提醒,该功能目前已经开源,会在未来的版本中发布给社区试用!
https://mp.weixin.qq.com/s/M8E7C9f1_ymshCNviriJyw
5HBase
本文主要讲解HBase的Region的拆分和合并机制
https://mp.weixin.qq.com/s/mg6c_h38efILWo_HAWy9zQ
6MongoDB
本文讲述了MongoDB全局事务计划,之前MongoDB 4.0版本只是在单节点支持事务,MongoDB下一阶段将支持分片集群上事务。
http://www.mongoing.com/archives/24829
7Spark
本文讲解 Spark Streaming 两种计算模型:无状态和状态计算模型,总结了 Spark Streaming 的应用场景与优缺点。
https://mp.weixin.qq.com/s/ZVf8mCXfhFC1uEyR-GGuoQ
8Spark
在使用 Spark 进行计算时,我们经常会碰到作业 (Job) Out Of Memory(OOM) 的情况,而且很大一部分情况是发生在 Shuffle 阶段。那么在 Spark Shuffle 中具体是哪些地方会使用比较多的内存而有可能导致 OOM 呢? 为此,本文将围绕以上问题梳理 Spark 内存管理和 Shuffle 过程中与内存使用相关的知识;然后,简要分析下在 Spark Shuffle 中有可能导致 OOM 的原因
https://mp.weixin.qq.com/s/YpcdjAfxDfDQ6EA5GzB57w
9gossip
gossip 协议(gossip protocol)又称 epidemic 协议(epidemic protocol),是基于流行病传播方式的节点或者进程之间信息交换的协议,在分布式系统中被广泛使用,比如我们可以使用 gossip 协议来确保网络中所有节点的数据一样。
https://www.iteblog.com/archives/2505.html
10DL
文章解读的是一篇发表于 AAAI 2019 的 paper,文章提出了一种 R-DAD 的方法来对 RCNN 系列的目标检测方法进行改进。
https://mp.weixin.qq.com/s/-G47vOGx2iNQCarYRAiNPg
11开心一刻
文件的命名,讲道理应该以英文为主,但是英语又不好,所以只好用拼音,最痛苦的应该算是那些英语又不好,又想秀一下的程序员,一半英语一半拼音,如mainFangFa~~~你说看了糟心不糟心。
致谢:
周蓬勃、王在道、孙亚飞、冯艺帆、陈少军、邓开表、张少华、薛述强、刘彬、刘超、廖程鹏、董言、吕西金、朱洁、蓝随、黄文辉、郭飞
猜你喜欢
大数据和云计算技术周报(第56期)
加入技术讨论群
《大数据和云计算技术》社区群人数已经6000+,欢迎大家加下面助手微信,拉大家进群,自由交流。
喜欢QQ群的,可以扫描下面二维码:
欢迎大家通过二维码打赏支持技术社区(英雄请留名,社区感谢您,打赏次数超过108+):