一份十分完整的CPU 100%排查优化指南

会员服务 ·

一份十分完整的CPU 100%排查优化指南

2019 年 4 月 19 日 51CTO博客

“

最近又收到了运维报警：表示有些服务器负载非常高，让我们定位问题。

还真是想什么来什么，前些天还故意把某些服务器的负载提高（没错，老板让我写个 Bug！），不过还好是不同的环境，互相没有影响。

定位问题

拿到问题后首先去服务器上看了看，发现运行的只有我们的 Java 应用。于是先用 PS 命令拿到了应用的 PID。

接着使用 top -Hp pid 将这个进程的线程显示出来。输入大写的 P 可以将线程按照 CPU 使用比例排序，于是得到以下结果：

果然某些线程的 CPU 使用率非常高。为了方便定位问题我立马使用 jstack pid > pid.log 将线程栈 Dump 到日志文件中。

我在上面 100% 的线程中随机选了一个 pid=194283 转换为 16 进制（2f6eb）后在线程快照中查询，因为线程快照中线程 ID 都是 16 进制存放。

发现这是 Disruptor 的一个堆栈，前段时间正好解决过一个由于 Disruptor 队列引起的一次 OOM，没想到又来一出。

为了更加直观的查看线程的状态信息，我将快照信息上传到专门分析的平台上：http://fastthread.io/

其中有一项菜单展示了所有消耗 CPU 的线程，我仔细看了下发现几乎都是和上面的堆栈一样。

也就是说都是 Disruptor 队列的堆栈，同时都在执行 java.lang.Thread.yield 函数。

众所周知 yield 函数会让当前线程让出 CPU 资源，再让其他线程来竞争。

根据刚才的线程快照发现处于 Runnable 状态并且都在执行 yield 函数的线程大概有 30 几个。

因此初步判断为大量线程执行 yield 函数之后互相竞争导致 CPU 使用率增高，而通过对堆栈发现是和使用 Disruptor 有关。

解决问题

而后我查看了代码，发现是根据每一个业务场景在内部都会使用 2 个 Disruptor 队列来解耦。

假设现在有 7 个业务类型，那就等于是创建 2*7=14 个 Disruptor 队列，同时每个队列有一个消费者，也就是总共有 14 个消费者（生产环境更多）。

同时发现配置的消费等待策略为 YieldingWaitStrategy 这种等待策略确实会执行 yield 来让出 CPU。

代码如下：

初步看来和这个等待策略有很大的关系。

本地模拟

为了验证，我在本地创建了 15 个 Disruptor 队列同时结合监控观察 CPU 的使用情况。

创建了 15 个 Disruptor 队列，同时每个队列都用线程池来往 Disruptor 队列里面发送 100W 条数据。

消费程序仅仅只是打印一下：

跑了一段时间发现 CPU 使用率确实很高：

同时 Dump 线程发现和生产的现象也是一致的：消费线程都处于 Runnable 状态，同时都在执行 yield。

通过查询 Disruptor 官方文档发现：

YieldingWaitStrategy 是一种充分压榨 CPU 的策略，使用自旋 + yield 的方式来提高性能。

当消费线程（Event Handler threads）的数量小于 CPU 核心数时推荐使用该策略。

同时查阅到其他的等待策略 BlockingWaitStrategy （也是默认的策略），它使用的是锁的机制，对 CPU 的使用率不高。

于是在和之前同样的条件下将等待策略换为 BlockingWaitStrategy。

和刚才的 CPU 对比会发现到后面使用率会有明显的降低；同时 Dump 线程后会发现大部分线程都处于 Waiting 状态。

优化解决

看样子将等待策略换为 BlockingWaitStrategy 可以减缓 CPU 的使用。

但留意到官方对 YieldingWaitStrategy 的描述里谈到：当消费线程（Event Handler threads）的数量小于 CPU 核心数时推荐使用该策略。

而现有的使用场景很明显消费线程数已经大大的超过了核心 CPU 数了，因为我的使用方式是一个 Disruptor 队列一个消费者，所以我将队列调整为只有 1 个再试试(策略依然是 YieldingWaitStrategy)。

跑了一分钟，发现 CPU 的使用率一直都比较平稳而且不高。

总结

所以排查到此可以有一个结论了，想要根本解决这个问题需要将我们现有的业务拆分；现在是一个应用里同时处理了 N 个业务，每个业务都会使用好几个 Disruptor 队列。

由于是在一台服务器上运行，所以 CPU 资源都是共享的，这就会导致 CPU 的使用率居高不下。

所以我们的调整方式如下：

为了快速缓解这个问题，先将等待策略换为 BlockingWaitStrategy，可以有效降低 CPU 的使用率（业务上也还能接受）。
第二步就需要将应用拆分（上文模拟的一个 Disruptor 队列），一个应用处理一种业务类型；然后分别单独部署，这样也可以互相隔离互不影响。

当然还有其他的一些优化，因为这也是一个老系统了，这次 Dump 线程居然发现创建了 800+ 的线程。

创建线程池的方式也是核心线程数、最大线程数是一样的，导致一些空闲的线程也得不到回收；这样会有很多无意义的资源消耗。

所以也会结合业务将创建线程池的方式调整一下，将线程数降下来，尽量的物尽其用。

作者：crossoverJie

编辑：陶家龙、孙淑娟

出处：转载自微信公众号crossoverJie

源码：https://github.com/crossoverJie/JCSprout

精彩文章推荐：

一个百亿级日志系统是怎么设计出来的?

重新定义“人货场”：淘宝情景计算探索实践

如何从单个服务器扩展到百万用户的系统？

登录查看更多

相关内容

中央处理器 (CPU)

关注 12

中央处理器（CPU，Central Processing Unit），电子计算机的主要设备之一。其功能主要是解释计算机指令以及处理计算机软件中的数据。

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知会员服务

81+阅读 · 2020年7月2日

商业数据分析，39页ppt

专知会员服务

165+阅读 · 2020年6月2日

【实用书】Python爬虫Web抓取数据，第二版，306页pdf

专知会员服务

122+阅读 · 2020年5月10日

【实用书】流数据处理，Streaming Data，219页pdf

专知会员服务

78+阅读 · 2020年4月24日

【实用书】Python数据分析与可视化，390页pdf，分析数据以创建BI系统的可视化

专知会员服务

163+阅读 · 2020年4月13日

TensorFlow Lite指南实战《TensorFlow Lite A primer》，附48页PPT

专知会员服务

70+阅读 · 2020年1月17日

KGCN：使用TensorFlow进行知识图谱的机器学习

专知会员服务

83+阅读 · 2020年1月13日

【Python最佳实践、技巧与提示30则】《30 Python Best Practices, Tips, And Tricks》by Erik-Jan van Baaren

专知会员服务

35+阅读 · 2020年1月6日

【强化学习】深度强化学习初学者指南

专知会员服务

184+阅读 · 2019年12月14日

【干货】大数据入门指南：Hadoop、Hive、Spark、 Storm等

专知会员服务

98+阅读 · 2019年12月4日

在K8S上运行Kafka合适吗？会遇到哪些陷阱？

DBAplus社群

9+阅读 · 2019年9月4日

使用 C# 和 Blazor 进行全栈开发

DotNet

6+阅读 · 2019年4月15日

百度开源项目OpenRASP快速上手指南

黑客技术与网络安全

5+阅读 · 2019年2月12日

安装TensorFlow 2.0 preview进行深度学习（附Jupyter Notebook）

专知

10+阅读 · 2019年1月11日

浅显易懂的分布式TensorFlow入门教程

专知

7+阅读 · 2018年6月22日

用 TensorFlow 目标检测 API 发现皮卡丘！

AI研习社

5+阅读 · 2018年6月4日

Python 2.7 即将停止支持，请收下这份 3.x 迁移指南

开源中国

5+阅读 · 2018年2月2日

浅谈浏览器 http 的缓存机制

前端大全

6+阅读 · 2018年1月21日

10 小时到 10 分钟，一步步优化巨量关键词的匹配

Linux爱好者

3+阅读 · 2017年7月29日

Spark App自动化分析和故障诊断

CSDN大数据

7+阅读 · 2017年6月22日

Knowledge Graphs

Arxiv

102+阅读 · 2020年3月4日

Learning a Matching Model with Co-teaching for Multi-turn Response Selection in Retrieval-based Dialogue Systems

Arxiv

6+阅读 · 2019年6月11日

Interpretable Convolutional Neural Networks via Feedforward Design

Arxiv

4+阅读 · 2018年10月5日

Learning to Coordinate Multiple Reinforcement Learning Agents for Diverse Query Reformulation

Arxiv

3+阅读 · 2018年9月27日

Incorporating Glosses into Neural Word Sense Disambiguation

Arxiv

4+阅读 · 2018年5月21日

The Web as a Knowledge-base for Answering Complex Questions

Arxiv

5+阅读 · 2018年3月18日

CuLDA_CGS: Solving Large-scale LDA Problems on GPUs

Arxiv

3+阅读 · 2018年3月13日

Wasserstein Auto-Encoders

Arxiv

7+阅读 · 2018年3月12日

AffordanceNet: An End-to-End Deep Learning Approach for Object Affordance Detection

Arxiv

3+阅读 · 2018年3月4日

Collaborative Learning for Weakly Supervised Object Detection

Arxiv

9+阅读 · 2018年2月10日

VIP会员