实用高效,水平分库如何做到平滑扩展

2017 年 11 月 25 日 开源中国 wier


摘要: 分库分表扩容是一件头疼的问题,是否有方案,既支持快速扩展,又不降低可用性?


上一篇关于《一致性hash在DynamoDB上的应用》的介绍中,有一个特别亮点,就是它无需停机就可以动态扩容。


这个对于我们常用的分库分表方案来说,有很大的优势,分库分表的扩容是一件头疼的问题,如果采用对db层做一致性hash,或是中间价的支持,它的成本过于高昂了,如果不如此,只能停机维护来处理,对高可用性会产生影响。


那是否有方案,既可以快速扩展,又不降低可用性?这一篇,我们聊聊分库分表的扩展方案,供大家一起探讨。

 

一、水平分库扩展问题


为了增加db的并发能力,常见的方案就是对数据进行sharding,也就是常说的分库分表,这个需要在初期对数据规划有一个预期,从而预先分配出足够的库来处理。


比如目前规划了3个数据库,基于uid进行取余分片,那么每个库上的划分规则如下:



如上我们可以看到,数据可以均衡的分配到3个数据库里面。


但是,如果后续业务发展的速度很快,用户量数据大量上升,当前容量不足以支撑,应该怎么办?


需要对数据库进行水平扩容,再增加新库来分解。新库加入之后,原先sharding到3个库的数据,就可以sharding到四个库里面了



不过此时由于分片规则进行了变化(uid%3 变为uid%4),大部分的数据,无法命中在原有的数据库上了,需要重新分配,大量数据需要迁移。


比如之前uid1通过uid1%3 分配在A库上,新加入库D之后,算法改为uid1%4 了,此时有可能就分配在B库上面了。如果你有看到之前《一致性哈希的原理与实践》,就会发现新增一个节点,大概会有90%的数据需要迁移,这个对DB同学的压力还是蛮大的,那么如何应对?


一般有以下几种方式。

 

二、停服迁移


停服迁移是最常见的一种方案了,一般如下流程:


  1. 预估停服时间,发布停服公告

  2. 停服,通过事先做好的数据迁移工具,按照新的分片规则,进行迁移

  3. 修改分片规则

  4. 启动服务


我们看到这种方式比较安全,停服之后没有数据写入,能够保证迁移工作的正常进行,没有一致性的问题。唯一的问题,就是停服了和时间压力了。


  1. 停服,伤害用户体验,同时也降低了服务器的可用性

  2. 必须在制定时间内完成迁移,如果失败,需要择日再次进行。同时增加了开发人员的压力,容易发生大的事故

  3. 数据量的巨大的时候,迁移需要大量时间


那有没有其他方式来改进一下,我们看下以下两种方案。

 

三、升级从库


线上数据库,我们为了保持其高可用,一般都会每台主库配一台从库,读写在主库,然后主从同步到从库。如下,A,B是主库,A0和B0是从库。



此时,当需要扩容的时候,我们把A0和B0升级为新的主库节点,如此由2个分库变为4个分库。同时在上层的分片配置,做好映射,规则如下:


uid%4=0和uid%4=2的分别指向A和A0,也就是之前指向uid%2=0的数据,分裂为uid%4=0和uid%4=2

uid%4=1和uid%4=3的指向B和B0,也就是之前指向uid%2=1的数据,分裂为uid%4=1和uid%4=3


因为A和A0库的数据相同,B和B0数据相同,所以此时无需做数据迁移即可。只需要变更一下分片配置即可,通过配置中心更新,无需重启。



由于之前uid%2的数据分配在2个库里面,此时分散到4个库中,由于老数据还存在(uid%4=0,还有一半uid%4=2的数据),所以需要对冗余数据做一次清理。


而这个清理,不会影响线上数据的一致性,可是随时随地进行。


处理完成以后,为保证高可用,以及下一步扩容需求。可以为现有的主库再次分配一个从库。



总结一下此方案步骤如下:


  1. 修改分片配置,做好新库和老库的映射。

  2. 同步配置,从库升级为主库

  3. 解除主从关系

  4. 冗余数据清理

  5. 为新的数据节点搭建新的从库

 

四、双写迁移


双写的方案,更多的是针对线上数据库迁移来用的,当然了,对于分库的扩展来说也是要迁移数据的,因此,也可以来协助分库扩容的问题。


原理和上述相同,做分裂扩容,只是数据的同步方式不同了。

 

1.增加新库写链接


双写的核心原理,就是对需要扩容的数据库上,增加新库,并对现有的分片上增加写链接,同时写两份数据。


因为新库的数据为空,所以数据的CRUD对其没有影响,在上层的逻辑层,还是以老库的数据为主。



2.新老库数据迁移


通过工具,把老库的数据迁移到新库里面,此时可以选择同步分裂后的数据(1/2)来同步,也可以全同步,一般建议全同步,最终做数据校检的时候好处理。



3.数据校检


按照理想环境情况下,数据迁移之后,因为是双写操作,所以两边的数据是一致的,特别是insert和update,一致性情况很高。但真实环境中会有网络延迟等情况,对于delete情况并不是很理想,比如:


A库删除数据a的时候,数据a正在迁移,还没有写入到C库中,此时C库的删除操作已经执行了,C库会多出一条数据。


此时就需要做好数据校检了,数据校检可以多做几遍,直到数据几乎一致,尽量以旧库的数据为准。


4.分片配置修改

数据同步完毕,就可以把新库的分片映射重新处理了,还是按照老库分裂的方式来进行,


u之前uid%2=0,变为uid%4=0和uid%4=2的

uid%2=1,变为uid%4=1和uid%4=3的。


 

引用:https://mp.weixin.qq.com/s/BLOneOs-cPxP_9b5eH8oQA



感恩节福利

11 月 27 日之前,只要在【你谈见解我送书:你所不了解的 Kafka | 感恩节福利】文末留言你在试读书籍第一章后的见解,就有机会获得文中提及技术书籍一本!快来留言吧,说不定中奖的就是你哦!!



推荐阅读

Linux 运维人员最常用 150 个命令汇总

阿里 Dubbo 疯狂更新,关 Spring Cloud 什么事?

TIOBE 11 月编程语言排行榜,脚本语言怎么了?

用 Vue 做一个酷炫的 menu

点击“阅读原文”查看更多精彩内容

登录查看更多
0

相关内容

【硬核书】可扩展机器学习:并行分布式方法
专知会员服务
86+阅读 · 2020年5月23日
【高能所】如何做好⼀份学术报告& 简单介绍LaTeX 的使用
【论文扩展】欧洲语言网格:概述
专知会员服务
7+阅读 · 2020年3月31日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
138+阅读 · 2019年12月12日
在K8S上运行Kafka合适吗?会遇到哪些陷阱?
DBAplus社群
9+阅读 · 2019年9月4日
数据库之架构:主备+分库?主从+读写分离?
架构文摘
8+阅读 · 2019年4月23日
亿级订单数据的访问与储存,怎么实现与优化
ImportNew
11+阅读 · 2019年4月22日
亿级订单数据的访问与存储,怎么实现与优化?
码农翻身
16+阅读 · 2019年4月17日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
机器学习中如何处理不平衡数据?
机器之心
13+阅读 · 2019年2月17日
一篇文章读懂阿里企业级数据库最佳实践
阿里巴巴数据库技术
5+阅读 · 2017年12月20日
解析京东大数据下高效图像特征提取方案
京东大数据
4+阅读 · 2017年9月29日
A survey on deep hashing for image retrieval
Arxiv
14+阅读 · 2020年6月10日
Few-shot Adaptive Faster R-CNN
Arxiv
3+阅读 · 2019年3月22日
A General and Adaptive Robust Loss Function
Arxiv
8+阅读 · 2018年11月5日
Few Shot Learning with Simplex
Arxiv
5+阅读 · 2018年7月27日
Arxiv
5+阅读 · 2018年3月28日
Arxiv
3+阅读 · 2018年1月31日
VIP会员
相关资讯
在K8S上运行Kafka合适吗?会遇到哪些陷阱?
DBAplus社群
9+阅读 · 2019年9月4日
数据库之架构:主备+分库?主从+读写分离?
架构文摘
8+阅读 · 2019年4月23日
亿级订单数据的访问与储存,怎么实现与优化
ImportNew
11+阅读 · 2019年4月22日
亿级订单数据的访问与存储,怎么实现与优化?
码农翻身
16+阅读 · 2019年4月17日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
机器学习中如何处理不平衡数据?
机器之心
13+阅读 · 2019年2月17日
一篇文章读懂阿里企业级数据库最佳实践
阿里巴巴数据库技术
5+阅读 · 2017年12月20日
解析京东大数据下高效图像特征提取方案
京东大数据
4+阅读 · 2017年9月29日
相关论文
A survey on deep hashing for image retrieval
Arxiv
14+阅读 · 2020年6月10日
Few-shot Adaptive Faster R-CNN
Arxiv
3+阅读 · 2019年3月22日
A General and Adaptive Robust Loss Function
Arxiv
8+阅读 · 2018年11月5日
Few Shot Learning with Simplex
Arxiv
5+阅读 · 2018年7月27日
Arxiv
5+阅读 · 2018年3月28日
Arxiv
3+阅读 · 2018年1月31日
Top
微信扫码咨询专知VIP会员