成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
双11实时物流订单最佳实践
2021 年 11 月 30 日
阿里技术
随着双11的开启,物流业也迎来了年度大考。2021年双11期间,递四方作为物流仓储服务方,布局仓库和分拣点超40+个,50w+平米作业场地,单日订单峰值达千万级别,海量购物订单由递四方配送到家,消费者由尾款人秒变收货人。
一 业务介绍
递四方成立于2004年,创业在深圳,是国内最早的国际物流和全球仓储服务物流供应链服务商,主要为从事跨境电商的客户、平台以及普通用户提供仓储物流服务,以GPN(直发订单)和GFN(海外仓储)两张网络为客户提供更好的全球跨境电商优质生态环境,致力于帮助中国企业走向全球,目前在全球超过100+家分支机构,服务全球约100万家跨境电商商户与超过2亿跨境电商终端用户。
二 业务挑战
为了应对双11单日峰值达到千万级别订单的状况,递四方运用大数据合理优化资源,提前做好全球仓储人力、物力、运力配置,保障仓储各流程高效、有序进行。从今年10月中下旬开始,上海转运中心和东莞转运中心相继启动。截至目前,递四方陆续在华东、华北、华南新建、扩建超级枢纽、揽收仓至40余个,继续加大在全国的布局;在国内拥有40个+分公司/分拨服务网点,全国50万+平方米办公/作业场地面积。
在业务方面,递四方借助自主研发分拣系统和云技术,快速进行条码识别,按指令分拣,实现称重分拣一体化全面覆盖,保证每一票货物都可自动识别、精准分拣出库。称重及分拣,已从传统人工模式升级为100%人工管控模式。此外,递四方信息科技的黑科技硬件——红光在此次“双11”首次亮相。在分拣效率不变的情况下,递四方信息科技用光幕等技术手段,对分拣机落格包裹进行核验,将库内错分率降低至万分之三,达到业界领先水平。尤其针对仓库环节,不断加大对库内的自动化、数字化、智能化建设,结合大数据、AI算法、云计算等手段进行系统的研发升级,引进高科技设备来提升产能、保障时效。
随着双11期间订单量剧增、应用的复杂度提升,我们的业务系统也经受着严峻的挑战,原来的实时数仓架构已经不能满足业务当前的需求。在寻找新的解决方案时,我们对比了业界常用的大数据实时查询数据库,比如HBase、ClickHouse、Druid,但在千亿级别数据多表连接查询时都遇到了瓶颈,无法满足业务实时性、服务稳定性的要求。
实时数仓在递四方的应用场景应用主要有以下几个方面:揽收、库内操作、仓间调拨、清关交邮预警监控,这里面包含着单票运转操作的每一个步骤。这些场景都需要做到实时监控,并且实时做出决策来提高物流的的整体时效。尤其是在双十一高峰期的情况下,如果人力或资源分配不足,很容易使某一环节堵塞,进而影响整体物流的时效。在技术的层面,我们有很多个业务系统,这些系统之间既有一致性也有独立性,一个复杂指标涉及到多个系统多张表,因此我们实时数仓对表连接查询能力非常强,而且对数据的更新插入速度也有着很高的要求。
今年双11,我们对支撑业务的实时数仓系统进行了升级,通过新一代基于flink+hologres的实时数仓系统,在物流订单量相较于去年增加多倍的情况下,仍然能够实时监控每一票订单的物流情况、每一个仓库的作业情况,并且实时数仓整体成本下降50%,真正做到了“多、快、好、省”。
下面我们将会具体介绍递四方实时数仓的升级演进之路。
三 递四方实时数仓之路
1 实时数仓1.0
在刚开始做第一版实时数仓的时候,时间窗口比较紧,我们要把有限的精力放到数据建模以及业务开发中,所以在对比了数据库的吞吐性以及处理能力后,我们选择了ADB。ADB在数量大很大的情况下,查询速度、插入速度都很快,而且支持DTS、OTTER等数据同步接入,同步性能很好。
数据源是阿里云的PolarDB、MySQL、RDS等数据库,采用阿里云的DataWork数据同步,把增量数据实时同步到ADB中,然后在ADB中做数据实时的计算,数据的任务调度在DataWork中完成。
但是当时遇到了一个非常大的问题,就是ADB的并发有限,计算任务耗费了大量的资源。在各种大屏、实时报表拉取数据的时候,高并发的情况下,ADB的延迟很高,给我们实时服务稳定性带来了非常大的挑战。
2 实时数仓2.0
经历了第一个版本的实时数仓后,我们总结了实时数仓的两个重要特性,一是实时,二是服务的稳定性。
第一个版本的实时数仓不能很好地满足稳定性,我们决定对新的实时数仓进行一个深入的研究和探索,在阿里云上看到了很多关于Hologres的应用,其性能表现极其出色,带来了不错的效果。在对比了业界不同的实时数仓架构后,我们最终选择了Flink+Hologres组合作为实时数仓。
这里一共有2条路径:
第一条路径是:通过DTS把Binlog数据同步到DataHub,然后使用Flink从DataHub中消费数据,把计算结果存储在Hologres中,这条路径主要是用于计算一些访问频率高且数据量大的数据,比如待揽收单量、入库单量、待完成单量等。
第二条路径是:业务系统的Binlog数据通过DataWorks同步到Hologres中。Hologres中分了3层,ODS层用于存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理。一般情况下,以增量的方式从业务系统导入到ODS层,数据模型和粒度都与业务系统保持一致。DWD层数据明细层,对ODS层数据进行清洗。DWS为汇总层,主要存放宽表。这里主要是考虑到粒度的不一样,在Hologres中多表连接查询能够发挥其最大的作用。整个架构的任务调度依赖于DataWorks。
本次采用的批流一体即席计算查询混合模式,既发挥了Flink流计算的能力,也充分利用了Hologres强大的连表查询能力。互联网普遍运用的HBase、ClickHouse、Druid等作为实时查询数据库,我们的业务复杂度是互联网的若干倍,这些实时数据库并不能完全满足我们的需求,架构互有优劣,但我们的架构是未来五六年内业务高速增长的最佳选择。
四 递四方与实时数仓Hologres
1 为什么选择Hologres
那么为什么会选择Hologres呢?通过调研发现它有几个特点,比较适合实际情况。
第一是Hologres的实时能力,满足目前递四方的实时数仓需求,支持百亿级表与亿级表之间的JOIN,秒级查询响应,还支持实时写入、批量数据导入,拥有超高导入性能,且并发能力极强。
第二是Hologres 采用存储计算分离架构,数据存储在阿里云分布式文件系统pangu中(类比开源HDFS),方便按需单独扩展计算或者存储。对快速行业来说,大促和日常所需要资源不一样,能够快速扩缩容,满足业务的动态需求。同时Hologres支持异构数据源交互分析以及离线数据和实时数据的联邦查询,Hologres已经和MaxCompute无缝打通,能够直接在Hologres中加速查询MaxCompute离线表。
第三是维护成本低、运行稳定,Hologres作为实时数仓存储成本大约是ADB的1/3。资源灵活性高,可以像MaxCompute一样灵活的升降配置,与阿里云大数据组件兼容性高,能降低运维成本和提高研发效能,不会对技术架构带来很大负担。
2 Hologres应用场景
在面向分析OLAP系统里面,Hologres承担了实时和离线数据的查询,由于Hologres既支持高并发写入,又能够满足及时查询,同时还能够支持OLAP分析,在我们的不同粒度的表进行连接的时候,能够充分发挥其优势。下面列举2个不同的场景对其做一个详细的说明。
场景一:库内操作场景
实时的数据从Binlog解析到ODS层,同时微批任务将分钟级别(范围可调)的统计数据计算到DWS宽表,同时跟离线的数据进行插入更新,就可以得到实时的全量数据表,调度采取DataWorks的调度,每5分钟调度1次。
场景2:仓间调拨场景
对于一些数据量小的表,依赖于Hologres强大的Join能力,通过视图来构建DWS中间层,如下图所示:
DWD是对ODS层过滤的视图,DWS层是DWD层聚合层的宽表,每次查询DWS层的时候,就相当于所有表重新查询了一次。这种查询语句是非常复杂的,对于关系型数据库来说,可能有性能瓶颈会非常缓慢。但是对于Hologres来说,毫秒级别查询完成毫无压力,做到了实时响应,并且节省了调度资源,同时也提升了查询的灵活性。
3 Hologres目前的不足
在使用Hologres期间也发现的一些不满足实际需求的地方:一是非空列不能建立索引,多个亿级别表连接在没有索引的情况下,查询速度下降。二是Hologres兼容Postgre生态,但支持的函数不多,在开发上与MaxCompute相比有一定的难度。
五 业务价值
整个双11期间,递四方通过升级实时数仓技术,基于Flink+Hologres搭建的实时数仓支撑了实时大屏的高频刷新访问,实时监控物流动态,促进了业务高效运行,让消费者的快递更快到家。整个架构升级给业务带来的价值有以下几个方面:
稳定:基于Hologres持续高稳定的输出,整体双11期间不论是实时数据写入、还是数据的读取都表现出了极强的稳定性。整个双11期间,真正做到了0故障率。
实时:实时的揽收、库内操作、中转调拨等实时大屏,对我们的运营提供了非常强有力的实时数据支撑,整体时效比去年提高了不少,给用户带来良好的物流体验,提高了公司的服务水平。
云原生:除了上面两个核心价值之外,由于双11期间是流量高峰期,比日常流量高出上千倍,通过Hologres可以实现动态扩缩容,满足我们对资源的不同需求,从而也降低了运维成本。
这是递四方参与的第7个双11狂欢节,递四方在这次的物流大考中交出了满意的答卷。随着业务迅猛增长,递四方也在不断演进背后的实时数仓技术来支撑更丰富的仓储物流场景,让物流从“手工化”逐渐转变为“智能化”。
Cassandra数据库入门与实战
Apache Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存收件箱等简单格式数据,2008年开源后,由于Cassandra良好的可扩展性,被Digg、Twitter等知名Web 2.0网站所采纳,成为了一种流行的分布式结构化数据存储方案。和其他数据库比较,Cassandra有支持线性扩展、可以处理大量数据集、易于大规模部署、高度容错等特点,因此也常年的权威数据库榜单DB-Engines上排名前十,宽表领域排名第一。
为了更好地将阿里云的数据库技术能力回馈给开发者,和百万开发者共同成长。阿里云联合Cassandra商业公司DataStax打造了本课程,邀请中美知名数据库技术专家共同授课,带你上手Cassandra,训练营涵盖Cassandra分布式数据库、大数据分析、AI等多个前沿领域,让我们一起探索云计算与AI浪潮下的下一个职业风口,也让你在MySQL、PG、MongoDB等数据库基础上,加持海量扩展的分布式数据库技能。
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
单峰值
关注
0
《5G 毫米波赋能 8K 视频制作》未来移动通信论坛
专知会员服务
11+阅读 · 2022年4月15日
【干货书】高效的MySQL性能最佳实践和技术,Efficient MySQL Performance Best Practices and Techniques
专知会员服务
23+阅读 · 2022年3月24日
离散制造业边缘计算 解决方案白皮书,46页pdf
专知会员服务
31+阅读 · 2022年3月23日
德勤发布《2022年度技术趋势》,135页ppt:帮助企业精准把握趋势,构建技术赋能的未来
专知会员服务
48+阅读 · 2022年3月14日
上海市智能网联汽车发展报告,25页pdf
专知会员服务
37+阅读 · 2022年2月10日
云计算原理与技术,57页pdf
专知会员服务
72+阅读 · 2021年10月10日
数字化城市道路怎么建?浙江发布首个技术指南
专知会员服务
13+阅读 · 2021年9月15日
5G AIoT全景商用产品手册,52页pdf
专知会员服务
49+阅读 · 2021年9月10日
5G垂直行业专网设计及部署白皮书,35页pdf
专知会员服务
34+阅读 · 2021年5月10日
【经典】谷歌《机器学习43条规则》,22页pdf,解密谷歌机器学习工程最佳实践
专知会员服务
41+阅读 · 2020年11月23日
作业帮基于Flink的实时计算平台实践
AI前线
0+阅读 · 2022年1月27日
作业帮检索服务基于 Fluid 的计算存储分离实践
InfoQ
1+阅读 · 2021年12月11日
技术揭秘:从双11看实时数仓Hologres高可用设计与实践
阿里技术
0+阅读 · 2021年12月10日
云原生数据仓库AnalyticDB支撑双11,大幅提升分析实时性和用户体验
阿里技术
0+阅读 · 2021年12月2日
云原生大数据架构中实时计算维表和结果表的选型实践
阿里技术
0+阅读 · 2021年9月14日
基于 MySQL + Tablestore 分层存储架构的大规模订单系统实践-架构篇
阿里技术
0+阅读 · 2021年9月2日
京东OLAP实践之路
专知
1+阅读 · 2021年5月6日
基于MySQL Binlog的Elasticsearch数据同步实践
DBAplus社群
15+阅读 · 2019年9月3日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
亿级订单数据的访问与存储,怎么实现与优化?
码农翻身
16+阅读 · 2019年4月17日
基于LiDAR数据的非栅格化道路矢量提取及融合高分影像的路网探测与优化
国家自然科学基金
0+阅读 · 2015年12月31日
自适应精度的可信RFID管理关键技术研究
国家自然科学基金
0+阅读 · 2014年12月31日
面向服务智能协同的农业物联网动态自治与资源优化配置
国家自然科学基金
0+阅读 · 2014年12月31日
基于排队模型的动态车辆路径问题实时优化策略及算法研究
国家自然科学基金
1+阅读 · 2014年12月31日
B2C电子商务物流整体优化及动态调整方法研究
国家自然科学基金
0+阅读 · 2014年12月31日
化工生产过程基于模型自适应的蒸汽系统实时优化方法研究
国家自然科学基金
0+阅读 · 2013年12月31日
基于机器学习和融合算法的全球陆表植被覆盖度估算方法研究
国家自然科学基金
0+阅读 · 2013年12月31日
面向大型相控阵雷达平面度控制的6自由度冗余驱动并联机器人研究
国家自然科学基金
0+阅读 · 2013年12月31日
面向城市规划的道路交通噪声预估与住区声环境保障技术研究
国家自然科学基金
1+阅读 · 2012年12月31日
面向云计算实时服务的调度模型与算法研究
国家自然科学基金
0+阅读 · 2012年12月31日
Per-run Algorithm Selection with Warm-starting using Trajectory-based Features
Arxiv
0+阅读 · 2022年4月20日
Quartz: Superoptimization of Quantum Circuits (Extended Version)
Arxiv
0+阅读 · 2022年4月19日
Investigating Cargo Loss in Logistics Systems using Low-Cost Impact Sensors
Arxiv
0+阅读 · 2022年4月19日
Automatic Hardware Trojan Insertion using Machine Learning
Arxiv
1+阅读 · 2022年4月18日
Configuration-Aware Safe Control for Mobile Robotic Arm with Control Barrier Functions
Arxiv
1+阅读 · 2022年4月18日
Index Modulation Pattern Design for Non-Orthogonal Multicarrier Signal Waveforms
Arxiv
0+阅读 · 2022年4月18日
Towards Robust Neural Networks via Orthogonal Diversity
Arxiv
0+阅读 · 2022年4月18日
GPL: Generative Pseudo Labeling for Unsupervised Domain Adaptation of Dense Retrieval
Arxiv
0+阅读 · 2022年4月15日
Introduction to Online Convex Optimization
Arxiv
22+阅读 · 2021年12月19日
A Modern Introduction to Online Learning
Arxiv
20+阅读 · 2019年12月31日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
单峰值
单峰
电商
数据同步
Apache Flink
峰值
相关VIP内容
《5G 毫米波赋能 8K 视频制作》未来移动通信论坛
专知会员服务
11+阅读 · 2022年4月15日
【干货书】高效的MySQL性能最佳实践和技术,Efficient MySQL Performance Best Practices and Techniques
专知会员服务
23+阅读 · 2022年3月24日
离散制造业边缘计算 解决方案白皮书,46页pdf
专知会员服务
31+阅读 · 2022年3月23日
德勤发布《2022年度技术趋势》,135页ppt:帮助企业精准把握趋势,构建技术赋能的未来
专知会员服务
48+阅读 · 2022年3月14日
上海市智能网联汽车发展报告,25页pdf
专知会员服务
37+阅读 · 2022年2月10日
云计算原理与技术,57页pdf
专知会员服务
72+阅读 · 2021年10月10日
数字化城市道路怎么建?浙江发布首个技术指南
专知会员服务
13+阅读 · 2021年9月15日
5G AIoT全景商用产品手册,52页pdf
专知会员服务
49+阅读 · 2021年9月10日
5G垂直行业专网设计及部署白皮书,35页pdf
专知会员服务
34+阅读 · 2021年5月10日
【经典】谷歌《机器学习43条规则》,22页pdf,解密谷歌机器学习工程最佳实践
专知会员服务
41+阅读 · 2020年11月23日
热门VIP内容
开通专知VIP会员 享更多权益服务
《优化联合作战准备:日本视角》最新21页
《基于嵌入式导弹系统的自主防空系统以挫败巡航威胁的定量论证》90页
乌克兰首次完全依靠UGV 和 FPV 无人机全自动攻击俄罗斯部队
《中高度长航时遥控无人机自动定位和跟踪》190页
相关资讯
作业帮基于Flink的实时计算平台实践
AI前线
0+阅读 · 2022年1月27日
作业帮检索服务基于 Fluid 的计算存储分离实践
InfoQ
1+阅读 · 2021年12月11日
技术揭秘:从双11看实时数仓Hologres高可用设计与实践
阿里技术
0+阅读 · 2021年12月10日
云原生数据仓库AnalyticDB支撑双11,大幅提升分析实时性和用户体验
阿里技术
0+阅读 · 2021年12月2日
云原生大数据架构中实时计算维表和结果表的选型实践
阿里技术
0+阅读 · 2021年9月14日
基于 MySQL + Tablestore 分层存储架构的大规模订单系统实践-架构篇
阿里技术
0+阅读 · 2021年9月2日
京东OLAP实践之路
专知
1+阅读 · 2021年5月6日
基于MySQL Binlog的Elasticsearch数据同步实践
DBAplus社群
15+阅读 · 2019年9月3日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
亿级订单数据的访问与存储,怎么实现与优化?
码农翻身
16+阅读 · 2019年4月17日
相关基金
基于LiDAR数据的非栅格化道路矢量提取及融合高分影像的路网探测与优化
国家自然科学基金
0+阅读 · 2015年12月31日
自适应精度的可信RFID管理关键技术研究
国家自然科学基金
0+阅读 · 2014年12月31日
面向服务智能协同的农业物联网动态自治与资源优化配置
国家自然科学基金
0+阅读 · 2014年12月31日
基于排队模型的动态车辆路径问题实时优化策略及算法研究
国家自然科学基金
1+阅读 · 2014年12月31日
B2C电子商务物流整体优化及动态调整方法研究
国家自然科学基金
0+阅读 · 2014年12月31日
化工生产过程基于模型自适应的蒸汽系统实时优化方法研究
国家自然科学基金
0+阅读 · 2013年12月31日
基于机器学习和融合算法的全球陆表植被覆盖度估算方法研究
国家自然科学基金
0+阅读 · 2013年12月31日
面向大型相控阵雷达平面度控制的6自由度冗余驱动并联机器人研究
国家自然科学基金
0+阅读 · 2013年12月31日
面向城市规划的道路交通噪声预估与住区声环境保障技术研究
国家自然科学基金
1+阅读 · 2012年12月31日
面向云计算实时服务的调度模型与算法研究
国家自然科学基金
0+阅读 · 2012年12月31日
相关论文
Per-run Algorithm Selection with Warm-starting using Trajectory-based Features
Arxiv
0+阅读 · 2022年4月20日
Quartz: Superoptimization of Quantum Circuits (Extended Version)
Arxiv
0+阅读 · 2022年4月19日
Investigating Cargo Loss in Logistics Systems using Low-Cost Impact Sensors
Arxiv
0+阅读 · 2022年4月19日
Automatic Hardware Trojan Insertion using Machine Learning
Arxiv
1+阅读 · 2022年4月18日
Configuration-Aware Safe Control for Mobile Robotic Arm with Control Barrier Functions
Arxiv
1+阅读 · 2022年4月18日
Index Modulation Pattern Design for Non-Orthogonal Multicarrier Signal Waveforms
Arxiv
0+阅读 · 2022年4月18日
Towards Robust Neural Networks via Orthogonal Diversity
Arxiv
0+阅读 · 2022年4月18日
GPL: Generative Pseudo Labeling for Unsupervised Domain Adaptation of Dense Retrieval
Arxiv
0+阅读 · 2022年4月15日
Introduction to Online Convex Optimization
Arxiv
22+阅读 · 2021年12月19日
A Modern Introduction to Online Learning
Arxiv
20+阅读 · 2019年12月31日
大家都在搜
palantir
洛克菲勒
大型语言模型
CMU博士论文
技术报告
无人艇
自主可控
国家地理图册
张贤达
出海产品从 0 到 1 该怎么做
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top