大数据和云计算技术周报(第107期)

2019 年 6 月 17 日 大数据和云计算技术


导语

“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。

    

本期会给大家奉献上精彩的:spark、知识图谱、MongoDB、全链路压测、ES、数据库原理、redis、Kylin、数据。全是干货,希望大家喜欢!!!


#大数据和云计算技术社区#希望通过坚持定期分享能帮助同学在大数据学习道路上尽一份微博之力。相信长期坚持认真阅读周报的同学,在技术的道路上一定会日益精进!感谢编辑们的长期坚持!也请同学们继续打赏,支持社区,支持编辑们持续奉献高质量知识!


#大数据和云计算技术社区#长期招募有兴趣参与社区编辑和运营的同学,欢迎扫描文末二维码联系(参与社区工作,收获知识和进步,还有红包哦)。


特别提醒,文末有惊喜!


以下是正文,限于众编辑水平有限,不保证大家都喜欢。(如果链接不能点开  请用二维码  谢谢


1Spark

Spark应用中,Shuffle服务的可靠性和性能直接影响了Spark应用的执行效率,来自Facebook的Brian Cho与Dmitry Borovsky在今年4月份旧金山举行的Spark AI峰会上,分享了他们为Spark/Hive Shuffle优化做的工作,这些工作中的很大部分已经应用于Facebook的大数据平台生产环境,对于超大规模的Spark数据处理优化,有一定的参考借鉴价值。


https://mp.weixin.qq.com/s/ly8E01HIM_GgGz8KKfVGYQ


Spark SQL 是 Spark 众多组件中技术最复杂的组件之一,它同时支持 SQL 查询和 DataFrame DSL。通过引入了 SQL 的支持,大大降低了开发人员的学习和使用成本。

https://mp.weixin.qq.com/s/crDp5SvrkbnZ7DPQ50tpIA


2Elastic

使用ignore-malformed功能解决数据类型不一致无法写入问题

https://www.elastic.co/guide/en/elasticsearch/reference/current/ignore-malformed.html?nsukey=ncpozAvRJ%2BukDWJfqu9E1Qrme7lz294tqUX78G2VjntuwepgXfEBl612xi%2BVh%2B4nzoeMTkan330f6ANw7mgEHTmbDmRzqFYIjECV2eY8EwyckVdWG5CaABMC0rc9X7z7Rdv51H5KfIXbpjCXHMaDnNIH9Z9cskj5%2Bs7V%2FUdoaxh8vwUOgVLq6%2BQ7%2F2yVPyUcTTjBSQmHUAbY6ZA16SNu%2Bg%3D%3D


3ProxySQL

ProxySQL是一个高性能的MySQL中间件,拥有强大的规则引擎。

ProxySQL提供强大的路由规则。当应用程序自身不支持读写分离时,DBA可以通过配置路由规则为应用程序提供透明的读写分离,使用Keepalived + ProxySQL + Orchestrator为主从提供高可用时,能够有效的避免keepalived + 双主结构 由于keepalived脑裂而造成数据被写错乱的痛点。

https://mp.weixin.qq.com/s/RwupNscnTKJgLuIfMqda3A


4数据库

X-Engine团队撰写的论文"X-Engine: An Optimized Storage Engine for Large-scale E-Commerce Transaction Processing",详细讲述了阿里在数据库存储引擎上所做的原创性工作,今年早些时候已经被SIGMOD'19 Industrial Track接收

https://mp.weixin.qq.com/s/XkG7ikHzf3IdEltv3YmvSA


5MongoDB

本文讲述了MongoDB WiredTiger存储引擎中的底层时间戳的实现使得从节点读取不会被复制更新中断,复制回滚,保证多文档ACID事务正确性。

http://www.mongoing.com/archives/26700


6系统架构

在创业公司,没有大公司那些完善的基础设施,需要我们从开源界,从云服务商甚至有些需要自己去组合,去拼装,去开发一个适合自己的组件或系统以达成目标。

https://mp.weixin.qq.com/s/CzZZcjkiyLh7k6o-3gP3Ag


7知识图谱

本文介绍将知识图谱作为辅助信息引入到推荐系统中可以有效地解决传统推荐系统存在的稀疏性和冷启动问题.

https://mp.weixin.qq.com/s/ZYLM3pt5w2gJXr0VUbNXSA


8Data

如今,大数据如火如荼,抛开数据谈大数据服务就是瞎扯,没有数据作支撑的大数据平台就是一个空壳,那这些数据的来源在哪呢?

https://mp.weixin.qq.com/s/Mj3byciIJoWQEKlug8s-yw


9Kylin

Apache Kylin 在今年 4 月 18 日发布了 3.0.0 Alpha 版本,本文主要围绕 Release notes 内提到的三个功能展开介绍,即:基于 Curator 的作业调度器,使用 Apache Livy 提交 Spark 任务,实时 OLAP。

https://mp.weixin.qq.com/s/qbRXqCEIW70kXm2RPxeu5Q


10Redis

本文首先通过Redis到底能存储多少个键值对,引出Redis的Hash表实现方式(数组链表)、扩缩容等原理,最后通过一个开脑洞的思考探讨,分析了各种利弊,最终讨论Redis到底存储多少个键值对会比较好(最多千万级别

https://mp.weixin.qq.com/s/Y4DARDPPSkIpme4psMT8Nw



11全链路压测

通过对压测实施的具体动作做统一的梳理,在压测各个阶段推进标准化和自动化,尽力提升全流程的执行效率,最终达到常态化的目标

https://mp.weixin.qq.com/s/qeHHTjhEeZ-VskL_8ac0Tg




11开心一刻

程序员爱情观:爱情就是死循环,一旦执行就陷进去了;爱上一个人,就是内存泄漏–你永远释放不了;真正爱上一个人的时候,那就是常量限定,永远不会改变;女朋友就是私有变量,只有我这个类才能调用;情人就是指针用的时候一定要注意,要不然就带来巨大的灾难。

致谢:

周蓬勃、王在道、孙亚飞、冯艺帆、陈少军、邓开表、张少华、薛述强、刘彬、刘超、廖程鹏、董言、吕西金、朱洁、蓝随、黄文辉、郭飞


猜你喜欢

#大数据和云计算机技术社区#博客精选(2017)

NoSQL 还是 SQL ?这一篇讲清楚

阿里的OceanBase解密

#大数据和云计算技术#: "四有"社区介绍

大数据和云计算技术周报(第56期)

新数仓系列:Hbase周边生态梳理(1)

《大数据架构详解》第2次修订说明

简单梳理跨数据中心数据库

云观察系列:漫谈运营商公有云发展史

云观察系列:百度云的一波三折

云观察系列:阿里云战略观察

超融合方案分析系列(7)思科超融合方案分析

加入技术讨论群

《大数据和云计算技术》社区群人数已经6000+,欢迎大家加下面助手微信,拉大家进群,自由交流。


喜欢QQ群的,可以扫描下面二维码:

欢迎大家通过二维码打赏支持技术社区(英雄请留名,社区感谢您,打赏次数超过108+):



登录查看更多
0

相关内容

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
专知会员服务
123+阅读 · 2020年3月26日
【新加坡国立大学】深度学习时代数据库:挑战与机会
专知会员服务
33+阅读 · 2020年3月6日
近期必读的12篇KDD 2019【图神经网络(GNN)】相关论文
专知会员服务
62+阅读 · 2020年1月10日
【阿里技术干货】知识结构化在阿里小蜜中的应用
专知会员服务
96+阅读 · 2019年12月14日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
137+阅读 · 2019年12月12日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
资源|Blockchain区块链中文资源阅读列表
专知会员服务
43+阅读 · 2019年11月20日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
人工智能大数据平台中Golang的应用实践
MomentaAI
5+阅读 · 2018年9月27日
终于有人把云计算、大数据和人工智能讲明白了!
大数据技术
7+阅读 · 2018年4月2日
大数据流处理平台的技术选型参考
架构文摘
4+阅读 · 2018年3月14日
《大数据架构详解:从数据获取到深度学习》第⑨次重印
大数据和云计算技术
3+阅读 · 2018年3月3日
《大数据架构详解:从数据获取到深度学习》第八次重印
大数据和云计算技术
5+阅读 · 2017年12月24日
福利丨晚来天欲雪,一起囤大数据好书吗?
DBAplus社群
4+阅读 · 2017年12月13日
【大数据】数据挖掘与数据分析知识流程梳理
产业智能官
12+阅读 · 2017年9月22日
Arxiv
20+阅读 · 2019年11月23日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Arxiv
12+阅读 · 2018年9月5日
Arxiv
4+阅读 · 2018年4月29日
VIP会员
相关VIP内容
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
专知会员服务
123+阅读 · 2020年3月26日
【新加坡国立大学】深度学习时代数据库:挑战与机会
专知会员服务
33+阅读 · 2020年3月6日
近期必读的12篇KDD 2019【图神经网络(GNN)】相关论文
专知会员服务
62+阅读 · 2020年1月10日
【阿里技术干货】知识结构化在阿里小蜜中的应用
专知会员服务
96+阅读 · 2019年12月14日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
137+阅读 · 2019年12月12日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
资源|Blockchain区块链中文资源阅读列表
专知会员服务
43+阅读 · 2019年11月20日
相关资讯
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
人工智能大数据平台中Golang的应用实践
MomentaAI
5+阅读 · 2018年9月27日
终于有人把云计算、大数据和人工智能讲明白了!
大数据技术
7+阅读 · 2018年4月2日
大数据流处理平台的技术选型参考
架构文摘
4+阅读 · 2018年3月14日
《大数据架构详解:从数据获取到深度学习》第⑨次重印
大数据和云计算技术
3+阅读 · 2018年3月3日
《大数据架构详解:从数据获取到深度学习》第八次重印
大数据和云计算技术
5+阅读 · 2017年12月24日
福利丨晚来天欲雪,一起囤大数据好书吗?
DBAplus社群
4+阅读 · 2017年12月13日
【大数据】数据挖掘与数据分析知识流程梳理
产业智能官
12+阅读 · 2017年9月22日
Top
微信扫码咨询专知VIP会员