图解分布式架构的演进过程!

2018 年 8 月 1 日 互联网架构师

相关阅读:

优秀架构师必须掌握的架构思维

10年Java老鸟忠告:技术人这4个错别再犯了!

互联网技术(java框架、分布式、集群)干货视频大全,不看后悔!(免费下载)

一、什么是分布式架构


分布式系统(distributed system) 是建立在网络之上的软件系统。


内聚性:是指每一个数据库分布节点高度自治,有本地的数据库管理系统。


透明性:是指每一个数据库分布节点对用户的应用来说都是透明的,看不出是本地还是远程。


在分布式数据系统中,用户感觉不数据是分布的,即用户不须知道关系是否分割,有无副本,数据存在于那个站点以及事物在哪个站点上执行。


简单来说:在一个分布式系统中,一组独立的计算机展现给用户的是一个统一的整体,就好像是一个系统似的。

分布式系统作为一个整体对用户提供服务,而整个系统的内部的协作对用户来说是透明的,用户就像是指使用一个mysql 一样。


如:分布式mysql中间件 mycat ,来处理大并发大数据量的构架。


二、分布式架构的应用


1、分布式文件系统


例如:出名的有 Hadoop 的 HDFS, 还有 google的 GFS , 淘宝的 TFS 等;


2、分布式缓存系统


例如:memcache , hbase, mongdb 等;


3、分布式数据库


例如:mysql, mariadb, postgreSql 等;


4、分布式webService


5、分布式计算


以分布式mysql数据库中间件mycat 为例:


MySQL 在现在电商以及互联网公司的应用非常多,一个是因为他的免费开源,另外一个原因是因为分布式系统的水平可扩展性,随着移动互联网用户的暴增,互联网公司,像淘宝,天猫,唯品会等电商都采用分布式系统应对用户的高并发量以及大数据量的存储。而在Mycat的商业案例中,有对中国移动的账单结算项目中,应用实时处理高峰期每天2亿的数据量,在对物联网的项目中,实现处理高达26亿的数据量,并提供实时查询的接口。


通过对MyCat的学习,加深分布式系统架构的理解,以及分布式相关的技术,分布式一致性ZooKeeper服务, 高可用HAProxy/keepalived等相关应用。


集群与分布式;


负载均衡;


分布式相关的高可用、容灾等名词解释;


Mycat中间件学习


三、资源推荐


1、大型分布式网站架构设计与实践:http://item.jd.com/11529266.html

2、大型网站技术架构:核心原理与案例分析:http://item.jd.com/11322972.html

3、大型网站系统与Java中间件实践:http://item.jd.com/11449803.html

4、分布式Java应用:基础与实践:http://item.jd.com/10144196.html


四、分布式架构的演进


1、初始阶段架构 

特征:应用程序,数据库,文件等所有资源都放在一台服务器上。 


2、应用服务和数据服务以及文件服务分离

说明:好景不长,发现随着系统访问量的再度增加,webserver机器的压力在高峰期会上升到比较高,这个时候开始考虑增加一台webserver。


特征:应用程序、数据库、文件分别部署在独立的资源上。 


3、使用缓存改善性能


说明:系统访问特点遵循二八定律,即80%的业务访问集中在20%的数据上。


缓存分为本地缓存远程分布式缓存,本地缓存访问速度更快但缓存数据量有限,同时存在与应用程序争用内存的情况。


特征:数据库中访问较集中的一小部分数据存储在缓存服务器中,减少数据库的访问次数,降低数据库的访问压力。


4、使用“应用服务器”集群

说明:在做完分库分表这些工作后,数据库上的压力已经降到比较低了,又开始过着每天看着访问量暴增的幸福生活了。


突然有一天,发现系统的访问又开始有变慢的趋势了,这个时候首先查看数据库,压力一切正常,之后查看webserver,发现apache阻塞了很多的请求,而应用服务器对每个请求也是比较快的,看来是请求数太高导致需要排队等待,响应速度变慢。


特征:多台服务器通过负载均衡同时向外部提供服务,解决单台服务器处理能力和存储空间上限的问题。


描述:使用集群是系统解决高并发、海量数据问题的常用手段。通过向集群中追加资源,提升系统的并发处理能力,使得服务器的负载压力不再成为整个系统的瓶颈。


5、数据库读写分离

说明:享受了一段时间的系统访问量高速增长的幸福后,发现系统又开始变慢了,这次又是什么状况呢,经过查找,发现数据库写入、更新的这些操作的部分数据库连接的资源竞争非常激烈,导致了系统变慢。


特征:多台服务器通过负载均衡同时向外部提供服务,解决单台服务器处理能力和存储空间上限的问题。


描述:使用集群是系统解决高并发、海量数据问题的常用手段。通过向集群中追加资源,使得服务器的负载压力不在成为整个系统的瓶颈。 


6、反向代理和CDN加速


特征:采用CDN和反向代理加快系统的访问速度。


描述:为了应付复杂的网络环境和不同地区用户的访问,通过CDN和反向代理加快用户访问的速度,同时减轻后端服务器的负载压力。CDN与反向代理的基本原理都是缓存。


7、“分布式文件”系统 和 “分布式数据库”


说明:随着系统的不断运行,数据量开始大幅度增长,这个时候发现分库后查询仍然会有些慢,于是按照分库的思想开始做分表的工作


特征:数据库采用分布式数据库,文件系统采用分布式文件系统。


描述:任何强大的单一服务器都满足不了大型系统持续增长的业务需求,数据库读写分离随着业务的发展最终也将无法满足需求,需要使用分布式数据库及分布式文件系统来支撑。


分布式数据库是系统数据库拆分的最后方法,只有在单表数据规模非常庞大的时候才使用,更常用的数据库拆分手段是业务分库,将不同的业务数据库部署在不同的物理服务器上。


8、使用NoSQL和搜索引擎


特征:系统引入NoSQL数据库及搜索引擎。


描述:随着业务越来越复杂,对数据存储和检索的需求也越来越复杂,系统需要采用一些非关系型数据库如NoSQL和分数据库查询技术如搜索引擎。


应用服务器通过统一数据访问模块访问各种数据,减轻应用程序管理诸多数据源的麻烦。


9、业务拆分



特征:系统上按照业务进行拆分改造,应用服务器按照业务区分进行分别部署。


描述:为了应对日益复杂的业务场景,通常使用分而治之的手段将整个系统业务分成不同的产品线,应用之间通过超链接建立关系,也可以通过消息队列进行数据分发,当然更多的还是通过访问同一个数据存储系统来构成一个关联的完整系统。


纵向拆分:将一个大应用拆分为多个小应用,如果新业务较为独立,那么就直接将其设计部署为一个独立的Web应用系统 纵向拆分相对较为简单,通过梳理业务,将较少相关的业务剥离即可。


横向拆分:将复用的业务拆分出来,独立部署为分布式服务,新增业务只需要调用这些分布式服务 横向拆分需要识别可复用的业务,设计服务接口,规范服务依赖关系。


10、分布式服务


特征:公共的应用模块被提取出来,部署在分布式服务器上供应用服务器调用。


描述:随着业务越拆越小,应用系统整体复杂程度呈指数级上升,由于所有应用要和所有数据库系统连接,最终导致数据库连接资源不足,拒绝服务。


五、分布式服务应用会面临哪些问题?


1、当服务越来越多时,服务URL配置管理变得非常困难,F5硬件负载均衡器的单点压力也越来越大。


2、当进一步发展,服务间依赖关系变得错踪复杂,甚至分不清哪个应用要在哪个应用之前启动,架构师都不能完整的描述应用的架构关系。


3、接着,服务的调用量越来越大,服务的容量问题就暴露出来,这个服务需要多少机器支撑?什么时候该加机器?


4、服务多了,沟通成本也开始上升,调某个服务失败该找谁?服务的参数都有什么约定?


5、一个服务有多个业务消费者,如何确保服务质量?


6、随着服务的不停升级,总有些意想不到的事发生,比如cache写错了导致内存溢出,故障不可避免,每次核心服务一挂,影响一大片,人心慌慌,如何控制故障的影响面?服务是否可以功能降级?或者资源劣化? 


来源:https://www.jianshu.com/p/585cba922b74

看完本文有收获?请转发分享给更多人



欢迎关注“互联网架构师”,我们分享最有价值的互联网技术干货文章,助力您成为有思想的全栈架构师,我们只聊互联网、只聊架构,不聊其他!打造最有价值的架构师圈子和社区。

本公众号覆盖中国主要首席架构师、高级架构师、CTO、技术总监、技术负责人等人 群。分享最有价值的架构思想和内容。打造中国互联网圈最有价值的架构师圈子。

  • 长按下方的二维码可以快速关注我们

  • 如想加群讨论学习,请点击右下角的“加群学习”菜单入群

登录查看更多
0

相关内容

Mycat是一个开源的分布式数据库系统,其核心功能是分表分库,即将一个大表水平分割为多个小表,存储在后端MySQL或者其他数据库里。取名Mycat原因一是简单好记,另一个则是希望未来能够入驻 Apache,Apache的开源产品Tomcat也是一只猫。
【干货书】现代数据平台架构,636页pdf
专知会员服务
253+阅读 · 2020年6月15日
【硬核书】可扩展机器学习:并行分布式方法
专知会员服务
85+阅读 · 2020年5月23日
【实用书】Python技术手册,第三版767页pdf
专知会员服务
234+阅读 · 2020年5月21日
【2020新书】Kafka实战:Kafka in Action,209页pdf
专知会员服务
67+阅读 · 2020年3月9日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
资源|Blockchain区块链中文资源阅读列表
专知会员服务
43+阅读 · 2019年11月20日
滴滴离线索引快速构建FastIndex架构实践
InfoQ
21+阅读 · 2020年3月19日
阿里巴巴全球化架构设计挑战
InfoQ
35+阅读 · 2019年11月25日
分布式核心技术知识图谱,带走不谢
架构师之路
12+阅读 · 2019年9月23日
阿里技术大牛:一份架构师成神路线图!
51CTO博客
30+阅读 · 2019年7月6日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
数据库之架构:主备+分库?主从+读写分离?
架构文摘
8+阅读 · 2019年4月23日
解读2018:13家开源框架谁能统一流计算?
AI前线
3+阅读 · 2018年12月17日
SLA 99.99%以上!饿了么实时计算平台3年演进历程
51CTO博客
11+阅读 · 2018年4月10日
今日头条推荐系统架构演进之路
QCon
32+阅读 · 2017年6月21日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Arxiv
20+阅读 · 2019年11月23日
Arxiv
4+阅读 · 2018年4月29日
Arxiv
5+阅读 · 2018年3月6日
VIP会员
相关VIP内容
【干货书】现代数据平台架构,636页pdf
专知会员服务
253+阅读 · 2020年6月15日
【硬核书】可扩展机器学习:并行分布式方法
专知会员服务
85+阅读 · 2020年5月23日
【实用书】Python技术手册,第三版767页pdf
专知会员服务
234+阅读 · 2020年5月21日
【2020新书】Kafka实战:Kafka in Action,209页pdf
专知会员服务
67+阅读 · 2020年3月9日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
资源|Blockchain区块链中文资源阅读列表
专知会员服务
43+阅读 · 2019年11月20日
相关资讯
滴滴离线索引快速构建FastIndex架构实践
InfoQ
21+阅读 · 2020年3月19日
阿里巴巴全球化架构设计挑战
InfoQ
35+阅读 · 2019年11月25日
分布式核心技术知识图谱,带走不谢
架构师之路
12+阅读 · 2019年9月23日
阿里技术大牛:一份架构师成神路线图!
51CTO博客
30+阅读 · 2019年7月6日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
数据库之架构:主备+分库?主从+读写分离?
架构文摘
8+阅读 · 2019年4月23日
解读2018:13家开源框架谁能统一流计算?
AI前线
3+阅读 · 2018年12月17日
SLA 99.99%以上!饿了么实时计算平台3年演进历程
51CTO博客
11+阅读 · 2018年4月10日
今日头条推荐系统架构演进之路
QCon
32+阅读 · 2017年6月21日
Top
微信扫码咨询专知VIP会员