We consider the problem of making apps fault-tolerant through replication, when apps operate at the microsecond scale, as in finance, embedded computing, and microservices apps. These apps need a replication scheme that also operates at the microsecond scale, otherwise replication becomes a burden. We propose Mu, a system that takes less than 1.3 microseconds to replicate a (small) request in memory, and less than a millisecond to fail-over the system - this cuts the replication and fail-over latencies of the prior systems by at least 61% and 90%. Mu implements bona fide state machine replication/consensus (SMR) with strong consistency for a generic app, but it really shines on microsecond apps, where even the smallest overhead is significant. To provide this performance, Mu introduces a new SMR protocol that carefully leverages RDMA. Roughly, in Mu a leader replicates a request by simply writing it directly to the log of other replicas using RDMA, without any additional communication. Doing so, however, introduces the challenge of handling concurrent leaders, changing leaders, garbage collecting the logs, and more - challenges that we address in this paper through a judicious combination of RDMA permissions and distributed algorithmic design. We implemented Mu and used it to replicate several systems: a financial exchange app called Liquibook, Redis, Memcached, and HERD. Our evaluation shows that Mu incurs a small replication latency, in some cases being the only viable replication system that incurs an acceptable overhead.


翻译:我们考虑的是通过复制应用错误容忍软件的问题,当应用程序在二小规模操作时,比如在金融、嵌入计算和微服务应用程序中,应用错误容忍软件的问题。这些应用程序需要一种同样在二小规模操作的复制方案,否则复制就会成为一个负担。我们提议了穆这个系统,它需要不到1.3微秒的时间复制一个(小)请求的记忆中复制一个(小)请求,而只有不到一毫秒的时间来失败系统——它至少将以往系统的复制和超时误差减少61%和90%。但是, Mu 以非常一致的方式执行一个通用的复制应用程序(SMRMR),但是,它确实利用微二小的软件(SMR)进行复制。为了提供这种效果,Mu 提出了一个新的SMR协议,它需要仔细利用RDMA系统复制一个(小), 粗略地将它直接写入其他复制系统的日志, 而不增加任何沟通。 但是, 穆卡(SMRM) 和更多的挑战是处理共同领导者, 正在改变的逻辑, 并且我们用了一个可以理解的复制系统来进行一个应用的操作。

0
下载
关闭预览

相关内容

Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
【新书】Java企业微服务,Enterprise Java Microservices,272页pdf
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
计算机 | USENIX Security 2020等国际会议信息5条
Call4Papers
7+阅读 · 2019年4月25日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
人工智能 | 国际会议信息10条
Call4Papers
5+阅读 · 2018年12月18日
人工智能 | 国际会议截稿信息5条
Call4Papers
6+阅读 · 2017年11月22日
深度学习医学图像分析文献集
机器学习研究会
18+阅读 · 2017年10月13日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Arxiv
0+阅读 · 2020年11月23日
Arxiv
0+阅读 · 2020年11月22日
Arxiv
0+阅读 · 2020年11月21日
VIP会员
相关资讯
计算机 | USENIX Security 2020等国际会议信息5条
Call4Papers
7+阅读 · 2019年4月25日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
人工智能 | 国际会议信息10条
Call4Papers
5+阅读 · 2018年12月18日
人工智能 | 国际会议截稿信息5条
Call4Papers
6+阅读 · 2017年11月22日
深度学习医学图像分析文献集
机器学习研究会
18+阅读 · 2017年10月13日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Top
微信扫码咨询专知VIP会员