写缓冲(change buffer)，这次彻底懂了！！！ - 专知

会员服务 ·

2

写缓冲(change buffer)，这次彻底懂了！！！

2019 年 6 月 25 日 架构师之路

上篇《缓冲池(buffer pool)，彻底懂了！》介绍了InnoDB缓冲池的工作原理。

简单回顾一下：

（1）MySQL数据存储包含内存与磁盘两个部分；

（2）内存缓冲池(buffer pool)以页为单位，缓存最热的数据页(data page)与索引页(index page)；

（3）InnoDB以变种LRU算法管理缓冲池，并能够解决“预读失效”与“缓冲池污染”的问题；

画外音：细节详见《缓冲池(buffer pool)，彻底懂了！》。

毫无疑问，对于读请求，缓冲池能够减少磁盘IO，提升性能。问题来了，那写请求呢？

情况一

假如要修改页号为4的索引页，而这个页正好在缓冲池内。

如上图序号1-2：

（1）直接修改缓冲池中的页，一次内存操作；

（2）写入redo log，一次磁盘顺序写操作；

这样的效率是最高的。

画外音：像写日志这种顺序写，每秒几万次没问题。

是否会出现一致性问题呢？

并不会。

（1）读取，会命中缓冲池的页；

（2）缓冲池LRU数据淘汰，会将“脏页”刷回磁盘；

（3）数据库异常奔溃，能够从redo log中恢复数据；

什么时候缓冲池中的页，会刷到磁盘上呢？

定期刷磁盘，而不是每次刷磁盘，能够降低磁盘IO，提升MySQL的性能。

画外音：批量写，是常见的优化手段。

情况二

假如要修改页号为40的索引页，而这个页正好不在缓冲池内。

此时麻烦一点，如上图需要1-3：

（1）先把需要为40的索引页，从磁盘加载到缓冲池，一次磁盘随机读操作；

（2）修改缓冲池中的页，一次内存操作；

（3）写入redo log，一次磁盘顺序写操作；

没有命中缓冲池的时候，至少产生一次磁盘IO，对于写多读少的业务场景，是否还有优化的空间呢？

这即是InnoDB考虑的问题，又是本文将要讨论的写缓冲(change buffer)。

画外音：从名字容易看出，写缓冲是降低磁盘IO，提升数据库写性能的一种机制。

什么是InnoDB的写缓冲？

在MySQL5.5之前，叫插入缓冲(insert buffer)，只针对insert做了优化；现在对delete和update也有效，叫做写缓冲(change buffer)。

它是一种应用在非唯一普通索引页(non-unique secondary index page)不在缓冲池中，对页进行了写操作，并不会立刻将磁盘页加载到缓冲池，而仅仅记录缓冲变更(buffer changes)，等未来数据被读取时，再将数据合并(merge)恢复到缓冲池中的技术。写缓冲的目的是降低写操作的磁盘IO，提升数据库性能。

画外音：R了狗了，这个句子，好长。

InnoDB加入写缓冲优化，上文“情况二”流程会有什么变化？

假如要修改页号为40的索引页，而这个页正好不在缓冲池内。

加入写缓冲优化后，流程优化为：

（1）在写缓冲中记录这个操作，一次内存操作；

（2）写入redo log，一次磁盘顺序写操作；

其性能与，这个索引页在缓冲池中，相近。

画外音：可以看到，40这一页，并没有加载到缓冲池中。

是否会出现一致性问题呢？

也不会。

（1）数据库异常奔溃，能够从redo log中恢复数据；

（2）写缓冲不只是一个内存结构，它也会被定期刷盘到写缓冲系统表空间；

（3）数据读取时，有另外的流程，将数据合并到缓冲池；

不妨设，稍后的一个时间，有请求查询索引页40的数据。

此时的流程如序号1-3：

（1）载入索引页，缓冲池未命中，这次磁盘IO不可避免；

（2）从写缓冲读取相关信息；

（3）恢复索引页，放到缓冲池LRU里；

画外音：可以看到，40这一页，在真正被读取时，才会被加载到缓冲池中。

还有一个遗漏问题，为什么写缓冲优化，仅适用于非唯一普通索引页呢？

InnoDB里，聚集索引(clustered index)和普通索引(secondary index)的异同，《1分钟了解MyISAM与InnoDB的索引差异》有详尽的叙述，不再展开。

如果索引设置了唯一(unique)属性，在进行修改操作时，InnoDB必须进行唯一性检查。也就是说，索引页即使不在缓冲池，磁盘上的页读取无法避免(否则怎么校验是否唯一？)，此时就应该直接把相应的页放入缓冲池再进行修改，而不应该再整写缓冲这个幺蛾子。

除了数据页被访问，还有哪些场景会触发刷写缓冲中的数据呢？

还有这么几种情况，会刷写缓冲中的数据：

（1）有一个后台线程，会认为数据库空闲时；

（2）数据库缓冲池不够用时；

（3）数据库正常关闭时；

（4）redo log写满时；

画外音：几乎不会出现redo log写满，此时整个数据库处于无法写入的不可用状态。

什么业务场景，适合开启InnoDB的写缓冲机制？

先说什么时候不适合，如上文分析，当：

（1）数据库都是唯一索引；

（2）或者，写入一个数据后，会立刻读取它；

这两类场景，在写操作进行时（进行后），本来就要进行进行页读取，本来相应页面就要入缓冲池，此时写缓存反倒成了负担，增加了复杂度。

什么时候适合使用写缓冲，如果：

（1）数据库大部分是非唯一索引；

（2）业务是写多读少，或者不是写后立刻读取；

可以使用写缓冲，将原本每次写入都需要进行磁盘IO的SQL，优化定期批量写磁盘。

画外音：例如，账单流水业务。

上述原理，对应InnoDB里哪些参数？

有两个比较重要的参数。

参数：innodb_change_buffer_max_size

介绍：配置写缓冲的大小，占整个缓冲池的比例，默认值是25%，最大值是50%。

画外音：写多读少的业务，才需要调大这个值，读多写少的业务，25%其实也多了。

参数：innodb_change_buffering

介绍：配置哪些写操作启用写缓冲，可以设置成all/none/inserts/deletes等。

希望大家有收获，思路比结论重要。

架构师之路-分享技术思路

相关推荐：

《6条shell小技巧，让脚本更专业 | 1分钟系列》

《MyISAM与InnoDB的索引差异 | 1分钟系列》

《缓冲池(buffer pool)，这次彻底懂了！！！》

《学会聆听，职场最重要的事情！！！》

登录查看更多

5

相关内容

Buffer（公司）

Buffer（公司）

【2020新书】使用高级C# 提升你的编程技能，412页pdf

【2020新书】使用高级C# 提升你的编程技能，412页pdf

专知会员服务

60+阅读 · 2020年6月26日

【实用书】Python技术手册，第三版767页pdf

【实用书】Python技术手册，第三版767页pdf

专知会员服务

240+阅读 · 2020年5月21日

Python分布式计算，171页pdf，Distributed Computing with Python

Python分布式计算，171页pdf，Distributed Computing with Python

专知会员服务

108+阅读 · 2020年5月3日

【2020新书】C语言算法导论，Introducing Algorithms in C，174页pdf

【2020新书】C语言算法导论，Introducing Algorithms in C，174页pdf

专知会员服务

104+阅读 · 2020年2月1日

【新书】Java企业微服务，Enterprise Java Microservices，272页pdf

【新书】Java企业微服务，Enterprise Java Microservices，272页pdf

专知会员服务

53+阅读 · 2020年1月30日

【Python最佳实践、技巧与提示30则】《30 Python Best Practices, Tips, And Tricks》by Erik-Jan van Baaren

【Python最佳实践、技巧与提示30则】《30 Python Best Practices, Tips, And Tricks》by Erik-Jan van Baaren

专知会员服务

35+阅读 · 2020年1月6日

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

专知会员服务

43+阅读 · 2019年11月5日

【课程】普林斯顿大学19年春季学期《机器学习优化》课程讲义

【课程】普林斯顿大学19年春季学期《机器学习优化》课程讲义

专知会员服务

85+阅读 · 2019年10月29日

注意力机制介绍，Attention Mechanism

注意力机制介绍，Attention Mechanism

专知会员服务

171+阅读 · 2019年10月13日

Cayley图数据库的可视化（Visualize）

Cayley图数据库的可视化（Visualize）

Python开发者

5+阅读 · 2019年9月9日

在K8S上运行Kafka合适吗？会遇到哪些陷阱？

在K8S上运行Kafka合适吗？会遇到哪些陷阱？

DBAplus社群

9+阅读 · 2019年9月4日

携程用ClickHouse轻松玩转每天十亿级数据更新

携程用ClickHouse轻松玩转每天十亿级数据更新

DBAplus社群

11+阅读 · 2019年8月6日

Pupy – 全平台远程控制工具

Pupy – 全平台远程控制工具

黑白之道

43+阅读 · 2019年4月26日

数据库之架构：主备+分库？主从+读写分离？

数据库之架构：主备+分库？主从+读写分离？

架构文摘

8+阅读 · 2019年4月23日

亿级订单数据的访问与储存，怎么实现与优化

亿级订单数据的访问与储存，怎么实现与优化

ImportNew

11+阅读 · 2019年4月22日

从webview到flutter：详解iOS中的Web开发

从webview到flutter：详解iOS中的Web开发

前端之巅

5+阅读 · 2019年3月24日

这一次，彻底解决滚动穿透

这一次，彻底解决滚动穿透

IMWeb前端社区

35+阅读 · 2019年1月4日

一天精通无人中级篇：遥控器协议 S-BUS

一天精通无人中级篇：遥控器协议 S-BUS

无人机

53+阅读 · 2018年12月20日

可能是讲分布式系统最到位的一篇文章

可能是讲分布式系统最到位的一篇文章

InfoQ

8+阅读 · 2018年11月19日

Advances in Online Audio-Visual Meeting Transcription

Advances in Online Audio-Visual Meeting Transcription

Arxiv

4+阅读 · 2019年12月10日

Do Transformer Attention Heads Provide Transparency in Abstractive Summarization?

Do Transformer Attention Heads Provide Transparency in Abstractive Summarization?

Arxiv

3+阅读 · 2019年7月8日

Tactical Rewind: Self-Correction via Backtracking in Vision-and-Language Navigation

Tactical Rewind: Self-Correction via Backtracking in Vision-and-Language Navigation

Arxiv

3+阅读 · 2019年3月6日

Single-frame Regularization for Temporally Stable CNNs

Single-frame Regularization for Temporally Stable CNNs

Arxiv

3+阅读 · 2019年2月27日

The Vadalog System: Datalog-based Reasoning for Knowledge Graphs

The Vadalog System: Datalog-based Reasoning for Knowledge Graphs

Arxiv

5+阅读 · 2018年7月23日

Compassionately Conservative Balanced Cuts for Image Segmentation

Arxiv

5+阅读 · 2018年3月27日

The Web as a Knowledge-base for Answering Complex Questions

Arxiv

5+阅读 · 2018年3月18日

Recurrent Autoregressive Networks for Online Multi-Object Tracking

Arxiv

9+阅读 · 2018年3月4日

Polypus: a Big Data Self-Deployable Architecture for Microblogging Text Extraction and Real-Time Sentiment Analysis

Arxiv

3+阅读 · 2018年1月11日

Long-Term Visual Object Tracking Benchmark

Arxiv

7+阅读 · 2017年12月28日

VIP会员

相关主题

Buffer（公司）

相关VIP内容

【2020新书】使用高级C# 提升你的编程技能，412页pdf

【2020新书】使用高级C# 提升你的编程技能，412页pdf

专知会员服务

60+阅读 · 2020年6月26日

【实用书】Python技术手册，第三版767页pdf

【实用书】Python技术手册，第三版767页pdf

专知会员服务

240+阅读 · 2020年5月21日

Python分布式计算，171页pdf，Distributed Computing with Python

Python分布式计算，171页pdf，Distributed Computing with Python

专知会员服务

108+阅读 · 2020年5月3日

【2020新书】C语言算法导论，Introducing Algorithms in C，174页pdf

【2020新书】C语言算法导论，Introducing Algorithms in C，174页pdf

专知会员服务

104+阅读 · 2020年2月1日

【新书】Java企业微服务，Enterprise Java Microservices，272页pdf

【新书】Java企业微服务，Enterprise Java Microservices，272页pdf

专知会员服务

53+阅读 · 2020年1月30日

【Python最佳实践、技巧与提示30则】《30 Python Best Practices, Tips, And Tricks》by Erik-Jan van Baaren

【Python最佳实践、技巧与提示30则】《30 Python Best Practices, Tips, And Tricks》by Erik-Jan van Baaren

专知会员服务

35+阅读 · 2020年1月6日

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

专知会员服务

43+阅读 · 2019年11月5日

【课程】普林斯顿大学19年春季学期《机器学习优化》课程讲义

【课程】普林斯顿大学19年春季学期《机器学习优化》课程讲义

专知会员服务

85+阅读 · 2019年10月29日

注意力机制介绍，Attention Mechanism

注意力机制介绍，Attention Mechanism

专知会员服务

171+阅读 · 2019年10月13日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】多目标奖励与偏好优化：理论与算法

《无形的防御者？将定向能武器集成到反无人机框架的机遇与挑战》报告

自主化海军：海上无人系统与未来海战

迈向智能体系统规模化的科学

相关资讯

Cayley图数据库的可视化（Visualize）

Cayley图数据库的可视化（Visualize）

Python开发者

5+阅读 · 2019年9月9日

在K8S上运行Kafka合适吗？会遇到哪些陷阱？

在K8S上运行Kafka合适吗？会遇到哪些陷阱？

DBAplus社群

9+阅读 · 2019年9月4日

携程用ClickHouse轻松玩转每天十亿级数据更新

携程用ClickHouse轻松玩转每天十亿级数据更新

DBAplus社群

11+阅读 · 2019年8月6日

Pupy – 全平台远程控制工具

Pupy – 全平台远程控制工具

黑白之道

43+阅读 · 2019年4月26日

数据库之架构：主备+分库？主从+读写分离？

数据库之架构：主备+分库？主从+读写分离？

架构文摘

8+阅读 · 2019年4月23日

亿级订单数据的访问与储存，怎么实现与优化

亿级订单数据的访问与储存，怎么实现与优化

ImportNew

11+阅读 · 2019年4月22日

从webview到flutter：详解iOS中的Web开发

从webview到flutter：详解iOS中的Web开发

前端之巅

5+阅读 · 2019年3月24日

这一次，彻底解决滚动穿透

这一次，彻底解决滚动穿透

IMWeb前端社区

35+阅读 · 2019年1月4日

一天精通无人中级篇：遥控器协议 S-BUS

一天精通无人中级篇：遥控器协议 S-BUS

无人机

53+阅读 · 2018年12月20日

可能是讲分布式系统最到位的一篇文章

可能是讲分布式系统最到位的一篇文章

InfoQ

8+阅读 · 2018年11月19日

相关论文

Advances in Online Audio-Visual Meeting Transcription

Advances in Online Audio-Visual Meeting Transcription

Arxiv

4+阅读 · 2019年12月10日

Do Transformer Attention Heads Provide Transparency in Abstractive Summarization?

Do Transformer Attention Heads Provide Transparency in Abstractive Summarization?

Arxiv

3+阅读 · 2019年7月8日

Tactical Rewind: Self-Correction via Backtracking in Vision-and-Language Navigation

Tactical Rewind: Self-Correction via Backtracking in Vision-and-Language Navigation

Arxiv

3+阅读 · 2019年3月6日

Single-frame Regularization for Temporally Stable CNNs

Single-frame Regularization for Temporally Stable CNNs

Arxiv

3+阅读 · 2019年2月27日

The Vadalog System: Datalog-based Reasoning for Knowledge Graphs

The Vadalog System: Datalog-based Reasoning for Knowledge Graphs

Arxiv

5+阅读 · 2018年7月23日

Compassionately Conservative Balanced Cuts for Image Segmentation

Arxiv

5+阅读 · 2018年3月27日

The Web as a Knowledge-base for Answering Complex Questions

Arxiv

5+阅读 · 2018年3月18日

Recurrent Autoregressive Networks for Online Multi-Object Tracking

Arxiv

9+阅读 · 2018年3月4日

Polypus: a Big Data Self-Deployable Architecture for Microblogging Text Extraction and Real-Time Sentiment Analysis

Arxiv

3+阅读 · 2018年1月11日

Long-Term Visual Object Tracking Benchmark

Arxiv

7+阅读 · 2017年12月28日

大家都在搜

大型语言模型

蓝牙安全攻防

朱克爱德华兹家族

精排模型-从MLP到行为序列：DIN、DIEN、MIMN、SIM、DSIN

微信扫码咨询专知VIP会员