某用户生产环境的 kubernetes 节点遇到的一个问题,大概问题是这样的,用户反馈他的业务所在 pod 一在吃内存,内存占用高达 17 G 并且还是持续在增长。接到用户反馈后,我秒登 VPN ,进到用户的环境开始排查问题。当时想的思路是这样的,既然是内存问题,那先看看这个业务所在 pod 里面到底是哪个进程在吃内存吧。
kubectl exec -it pod -n xxx /bin/bash
执行 top 命令查看下当前 pod 正在运行的进程,发现在容器里面有一个 7 号进程 VSZ 占用 6522m,这里先简单说明下 top 看到的一些和内存指标相关的参数含义:
RSS是Resident Set Size(常驻内存大小)的缩写,用于表示进程使用了多少内存(RAM中的物理内存),RSS不包含已经被换出的内存。RSS包含了它所链接的动态库并且被加载到物理内存中的内存。RSS还包含栈内存和堆内存。
查看当前 pid 的状态,其中有一个字段VmRSS 表示当前进程所使用的内存,然而我们发现用户当前进程所占用的内存才2.3G 左右。而通过kubectl top pod 查看 pod 的内存占用 确实发现该 pod 占用 17 G ,说明并不是容器内进程内存泄露导致的问题,那这就奇怪了,是什么原因导致占用这么多内存呢?要继续排查这个问题,我们就需要先看看容器的内存统计是如何计算的了。众所周知,操作系统系统的内存会有一部分被buffer、cache之类占用,在 Linux 操作系统中会把这部分内存算到已使用,那么对于容器来讲,也会把某容器引发的cache占用算到容器占用的内存上,要验证这个问题,你可以启动一个容器,然后直接使用 dd 去创建一个大文件观察下内存变化。
[root@8e3715641c31 /]# dd if=/dev/zero of=my_new_file count=1024000 bs=3024 1024000+0 records in 1024000+0 records out 3096576000 bytes (3.1 GB, 2.9 GiB) copied, 28.7933 s, 108 MB/s
你会发现,系统的 buff/cache 这一列会不断的增大。
[root@8e3715641c31 /]# free -h total used free shared buff/cache available Mem: 3.7Gi 281Mi 347Mi 193Mi 3.1Gi 3.0Gi Swap: 0B 0B 0B
这里解释一下buff和cache的区别:我们可以执行 man free 查看解释:
DESCRIPTION free displays the total amount of free and used physical and swap memory in the system, as well as the buffers and caches used by the kernel. The information is gathered by parsing /proc/meminfo. The displayed columns are:
total Total installed memory (MemTotal and SwapTotal in /proc/meminfo)
used Used memory (calculated as total - free - buffers - cache)
free Unusedmemory (MemFree and SwapFree in /proc/meminfo)
sharedMemory used (mostly) by tmpfs (Shmem in /proc/meminfo)
buffers Memory used by kernel buffers (Buffers in /proc/meminfo)
cacheMemory used by the page cacheand slabs (Cached and SReclaimable in /proc/meminfo)
buff/cache Sumof buffers andcache
available Estimation of how much memoryis available forstartingnew applications, without swapping. Unlike the data provided by the cacheor free fields, this field takes intoaccount page cacheand also that not all reclaimable memory slabs will be reclaimed due to items being inuse (MemAvailable in /proc/meminfo, available on kernels 3.14, emulated on kernels 2.6.27+, otherwise the same as free)
当执行完这条命令后,该 pod 的内存瞬间变小,同时磁盘 I/O 持续飙升,说明正是 cache 问题导致的,于是告诉用户调整日志的级别,把 debug 改成 info,发现内存问题得到解决。如何解决生产环境内存飙升的问题?首先,合理的规划资源,对每个 Pod 限制其资源使用,kubernetes 提供了针对 pod 级别的资源限制功能,默认情况下,Pod 运行没有 CPU 和内存的限额。 这意味着系统中的任何 Pod 将能够像执行该 Pod 所在的节点一样,消耗足够多的 CPU 和内存。我们可以非常容易的通过 limits 来限制 Pod 的内存和 CPU ,这样一来一旦内存达到使用限制,pod 会自动重启,而不会影响到其他 pod。