500万日订单下的高可用拼购系统，到底暗藏了什么“独门秘籍”?

会员服务 ·

500万日订单下的高可用拼购系统，到底暗藏了什么“独门秘籍”?

2018 年 8 月 14 日 51CTO博客

“

零点提交订单峰值破 1 万 TPS，单日总订单量超 500 万，活跃用户数 200 万，苏宁 88 拼购日活动取得了丰硕的成果。

在大流量、高销量的背后，是我们近半年来付出的努力，针对拼购系统瞬时高并发能力的优化与升级，才能保证消费者丝滑顺畅的购物体验。下面就来介绍下苏宁拼购系统应对大促的术与道。

术为用：拼购系统高可用的架构设计

“术”是架构设计的方法论。拼购系统的架构历经多次更新和迭代，其目的是打造一个高可用、高性能、易扩展、可伸缩性强的应用系统。

将整个过程精炼出来，我们主要做了三个方面的工作：

系统架构优化设计
数据库性能的优化
应用高可用的优化

系统架构优化设计

根据康威定律，组织形式等同系统设计。拼购系统之前为了满足快速的开发迭代节奏，所有功能是放在一个集群中的。

随着业务的发展，功能越来越复杂，单一集群已经成为限制系统性能的最大瓶颈。

图 1：苏宁拼购系统架构设计

因此，系统优化所做的第一件事情就是对拼购系统架构进行了重构。一方面，进行横向切分，将系统分层，包括：

网络层：通过 CDN 加速响应。一方面 CDN 缓存提高静态内容访问速度，减少服务端压力；另一方面，CDN 内部网络专线，加快回源速度。
负载层：包括四层负载和七层负载。功能包括流量调度、流量控制、安全防护、黄牛防护等，另外在负载层也做了一些轻量级业务的 Lua 聚合，以提高响应性能。
应用层：这层主要实现业务功能逻辑。
服务层：为应用层提供原子服务，如会员、领券、寻源、时效、生成订单、支付等。
数据层：提供数据存储访问服务，如数据库、缓存等；提供数据抽取分析服务，如 Hbase、Hive。

另一方面，针对拼购的业务特性，进行纵向切分，将原来耦合的功能逻辑拆分为三层：PGS-WEB、PGS-TASK-WEB、PGS-ADMIN_WEB。

每个模块独立集群部署，集群之间通过分布式远程调用与服务层提供的原子服务协同工作。其中：

PGS-WEB：前台业务处理模块。包括展示、交易、营销三个单元模块。每个模块又能分割为更小粒度的子模块。
比如营销模块就又能细分为四个轻量级玩法模块：邀新团、砍价团、膨胀红包和助力团，可以针对业务需要，对不同模块进行拔插、拆分和扩展。
PGS-TASK-WEB：中台定时任务处理模块，主要用于处理定时任务，另外支付逻辑也在这一层。
PGS-ADMIN_WEB：后台管理模块，主要用于运营人员维护活动、商品、玩法等。

数据库性能优化

在高并发场景下，提交订单、生成拼团记录、查询订单等操作，会对数据库造成很大压力，而这些一致性要求高的操作又不能直接使用分布式缓存替代数据库。

而给数据库降温，提高数据库的并发处理能力，必须让数据库具备横向扩展能力。因此我们基于 Mycat 数据库中间件实现了拼购系统数据库的分库分表策略。

图 2：高并发场景下 MySQL 数据库负载能力趋势

Mycat 是 MySQL 分库分表中间件，和 Web 服务器的 Nginx 类似，是应用与数据库之间的代理层。

由于 Mycat 是开源中间件，这里对技术实现不做阐述，主要讲下它在拼购系统下是如何应用的。

如下图所示，业务逻辑的数据操作通过 Mycat 分为三个库 DataNode 1~3，这个分库过程应用本身是无感知的。

图 3：苏宁拼购系统基于 Mycat 的分库架构

每个库一写两读，针对团和团详情的操作分片规则基于团 ID（GROUP_ID），针对订单的操作分片规则基于订单 ID（ORDER_ID）。

另外，还有一个单独的 BackupDB 用于大数据抽取和数据备份，通过 Canal 保证 BackupDB 中是全量数据。

当 Mycat 出现问题时，我们可以通过应用层的数据源切换，降级为单库，保证业务。

应用高可用优化

对于应用层面的优化，主要包括分布式缓存和异步化两方面。

利用 Redis 分布式锁解决并发场景一致性问题

比如为了防止订单被重复处理，我们使用 Jedis 的事务 Transaction + SETNX 命令来实现 Redis 分布式锁：

Transaction transaction = jedis.multi();//返回一个事务控制对象
transaction.setnx(tmpLockKey, "lock");//Set if Not Exist
transaction.expire(tmpLockKey, locktime);
List<Object> rets = transaction.exec();//事务执行

利用 Redis 实现活动库存，解决数据库资源竞争问题

对于每一个拼团活动，我们是维护了活动库存的，或者叫做资格/剩余数，并非真正的实际库存。

在 1 元秒杀等活动中，这个活动库存的变化会很迅速，大量数据库 UpDate 操作，造成行锁非常影响系统吞吐率。

优化方案是在Redis 中做活动库存扣减，并以一定周期同步给数据库：

/**
 * Redis缓存扣减活动库存
 * */
private Long updateStoreByRedis(String actId, String field, int count) {
        String key = redis.key(PGS_STORE_INFO, actId);
        // 如果活动库存缓存信息存在，则更新对应field的数量
        if (!redis.exists(key)) {
            // 从数据库读取该活动库存信息并初始化到redis
            ActivityStoreEntity entity = queryStoreInfoFromDb(actId);
            if (entity == null) {
                return -1L;
            }
            Map<String, String> values = new HashMap<String, String>();
            values.put(PGS_STORE_ALL,…);
            values.put(PGS_STORE_REMAIN, …);
            values.put(PGS_STORE_LOCK, …)
            redis.hmset(key, values);
            // 若活动有效期内库存缓存信息失效,初始化缓存信息一小时
            redis.expire(key, ONE_HOUR);
        }
        return redis.hincrby(key, field, count);
    }

/**
 * Redis同步活动库存给数据库
 * */
public int syncActivityStoreToDB(String actId) {
        …
        try {
 // 判断同步锁状态
            String key = redis.key(PGS_STORE_SYNC, actId);
            if(!redis.exists(key)){
                    更新活动可被锁库存数量
                    redis.setex(key, actId,STORE_SYNC_TIME);
                }
            }
        } catch (Exception e) {
            Log;
        }
        …
}

异步化操作，消除并发访问高峰

比如支付完成后，有一系列的后续处理流程，包括活动库存扣减、拼团状态变更等，其中有些逻辑实时性要求高，要同步处理。

有些则可以通过异步化的方式来处理，像通知物流发货。我们采用 Kafka 队列来进行异步通信，让下游系统进行消费处理。

道为体：拼购系统高并发下的保障体系

“以道驭术，术必成。离道之术，术必衰。”我们所有的架构优化与升级最终目的是为了保障促销高峰的稳定性。

拼购系统高并发场景下的保障之道，是以合理的容量规划为基础，全面覆盖的监控体系为支撑，形成的完善的限流+降级+防控策略。

全链路压测与容量规划

根据业务预估量，生产环境针对苏宁拼购全链路场景的压测，才能做出合理的容量规划。

目前，我们的压测系统，可以支持引流压测，即将线上真实流量复制下来，生成脚本，进行压测。最大程度保证了压测和真实情况的一致性，从而使容量规划更精确。

端到端覆盖的监控体系

目前苏宁拼购的监控体系能够做到端到端的覆盖，包括客户端->网络->服务端的监控。

其中，客户端监控依赖于覆盖 PC + WAP + App 的终端日志。网络监控主要是 CDN 日志和拨测数据。

服务端监控手段最为丰富，包括：

服务器系统状态监控：CPU、内存使用率、网卡流量、磁盘 IO 等。
Web 服务器监控：实时展现 Web 服务器的 Http 连接数、响应时间、Http 异常、状态码等指标。
应用服务器异常监控：实时汇总应用异常堆栈信息。
JVM 状态监控：实时展现JVM的内存、线程、GC 和 Class 的使用状况。
NoSQL 监控：Redis 每分钟命令数、大对象、连通性等的监控。
数据库监控：数据库层面各项指标监控。
调用链监控：实时展现应用间调用关系，反馈链路系统健康状况。

这些监控系统通过 traceId 相串联，与基础运维平台打通，最终通过决策分析平台聚合，实现智能告警。

图 4：端到端监控体系与告警决策平台

流量控制与风险控制

流量控制是针对 88 拼购日零点峰值疯狂流量超出预期，所设置的限流，以保护好自身应用，否则出现雪崩式连锁反应。

目前拼购的流控系统可以支持多个维度的流控策略。包括最基础的 JVM 活跃线程数流控，针对用户 IP、UA 和会员编号的限流，针对核心接口的限流策略，针对爆款商品的限流策略等等。

图 5：拼购流控系统架构

风险控制是针对 88 拼购日爆款商品被黄牛刷单风险的防控策略。除了传统的黄牛库名单，拼购的风控策略包括对用户、地址、事件行为、设备指纹等的判断。

区别于非黑即白的防控，拼购采用打分的方式对用户进行画像，对潜在的风险用户采取短信验证、滑动验证、人脸识别等一些列挑战模式。

大促准备与应急预案

大促准备工作是指结合业务的促销节奏，梳理的一系列大促准备工作，包括非核心定时任务的提前降级、生产操作权限的回收等。

应急预案是针对大促可能发生的突发性事件梳理的预案，应急预案是建立在降级手段的基础上的。

比如关键时候对部分功能的降级关闭操作，弃车保帅，保障购物流程的正常；再比如针对服务器性能瓶颈的降温手段，只有在准备好应对一切突发情况的前提下，才能保证每次大促的顺利完成。

结束语

路漫漫其修远兮，今年的 88 苏宁拼购日已经告一段落。未来向我们提出了更多的挑战与机遇。

如何进一步突破系统性能瓶颈，如何给用户提供个性化的推荐与服务，如何将拼购做成一个开放的社交化电商平台，苏宁拼购技术团队要做的工作仍然有很多。

我们将继续前行，势不可挡，并为大家带来持续的技术分享与更新。

作者：朱羿全、任章雄、张涛、龚召忠

简介：朱羿全，南京航空航天大学硕士研究生毕业，苏宁易购消费者研发中心高级技术经理，主要负责易购各系统架构优化与大促保障工作。先后参与了易购整站 Https 改造、苏宁拼购架构改造、先知业务监控平台建设等工作。专注于打造高可靠、高性能、高并发服务系统的技术研究。

编辑：陶家龙、孙淑娟

投稿：有投稿、寻求报道意向技术人请联络 editor@51cto.com

精彩文章推荐：

从大团队并肩作战到小团队带头冲锋，苏宁App插件化应用实践

微服务改造那些痛！苏宁数据中台基于Spring Cloud架构实践

NoSQL还是SQL？这一篇讲清楚

登录查看更多

相关内容

MyCat

关注 0

Mycat是一个开源的分布式数据库系统，其核心功能是分表分库，即将一个大表水平分割为多个小表，存储在后端MySQL或者其他数据库里。取名Mycat原因一是简单好记，另一个则是希望未来能够入驻 Apache，Apache的开源产品Tomcat也是一只猫。

【2020新书】使用高级C# 提升你的编程技能，412页pdf

专知会员服务

60+阅读 · 2020年6月26日

华为发布《自动驾驶网络解决方案白皮书》

专知会员服务

130+阅读 · 2020年5月22日

众包数据库综述

专知会员服务

32+阅读 · 2020年5月20日

Python分布式计算，171页pdf，Distributed Computing with Python

专知会员服务

108+阅读 · 2020年5月3日

轻量级神经网络架构综述

专知会员服务

97+阅读 · 2020年4月29日

【北京大学】面向5G的命名数据网络物联网研究综述

专知会员服务

38+阅读 · 2020年4月26日

阿里巴巴达摩院发布「2020十大科技趋势」

专知会员服务

108+阅读 · 2020年1月2日

【大数据白皮书 2019】中国信息通信研究院

专知会员服务

138+阅读 · 2019年12月12日

【干货】大数据入门指南：Hadoop、Hive、Spark、 Storm等

专知会员服务

98+阅读 · 2019年12月4日

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

专知会员服务

51+阅读 · 2019年11月8日

【数据中台】什么是数据中台？

产业智能官

18+阅读 · 2019年7月30日

专访阿里亚顿：Serverless与BFF与前端

前端之巅

45+阅读 · 2019年5月8日

亿级订单数据的访问与储存，怎么实现与优化

ImportNew

11+阅读 · 2019年4月22日

亿级订单数据的访问与存储，怎么实现与优化？

码农翻身

16+阅读 · 2019年4月17日

如何运营15万付费用户？

三节课

6+阅读 · 2019年2月28日

5G进电厂走到了哪一步？

1号机器人网

15+阅读 · 2019年2月13日

干货 | 双11总峰值超8亿OPS 阿里分布式NoSQL如何岿然不动稳如山？

阿里巴巴数据库技术

10+阅读 · 2018年12月12日

一张图理清电商后台产品模块，90%的电商类产品后台都适用

人人都是产品经理

8+阅读 · 2018年12月9日

Flink 靠什么征服饿了么工程师？

阿里技术

6+阅读 · 2018年8月13日

SaaS版今日头条融资3000万装着6亿用户画像帮400企业精准推荐

铅笔道

6+阅读 · 2018年1月31日

Knowledge Graphs

Arxiv

102+阅读 · 2020年3月4日

Seeing What a GAN Cannot Generate

Arxiv

8+阅读 · 2019年10月24日

Dynamic Self-Attention : Computing Attention over Words Dynamically for Sentence Embedding

Arxiv

8+阅读 · 2018年8月22日

Bidirectional Attention for SQL Generation

Arxiv

4+阅读 · 2018年6月21日

Sentiment Analysis of Arabic Tweets: Feature Engineering and A Hybrid Approach

Arxiv

7+阅读 · 2018年5月22日

Visual Tracking via Dynamic Graph Learning

Arxiv

5+阅读 · 2018年4月30日

Information and Environment: IoT-Powered Recommender Systems

Arxiv

5+阅读 · 2018年2月28日

An Iterative Spanning Forest Framework for Superpixel Segmentation

Arxiv

9+阅读 · 2018年1月30日

Unsupervised Cipher Cracking Using Discrete GANs

Arxiv

11+阅读 · 2018年1月15日

Constraint and Mathematical Programming Models for Integrated Port Container Terminal Operations

Arxiv

3+阅读 · 2017年12月14日

VIP会员