摘要:以前,统计信息收集器通过UDP接收统计信息更新,并通过定期将统计信息数据写出到临时文件来共享统计信息数据。当文件达到数十兆字节时,每秒最多写出两次,这会阻止添加其他有用的统计数据。现在,PostgreSQL 15将做出了重大的改变,开始使用动态共享内存来收集统计信息,而不再使用文件和文件系统。
原文链接:
https://www.percona.com/blog/postgresql-15-stats-collector-gone-whats-new/
声明:本文为CSDN翻译,转载请注明来源。
作者 | Jobin Augustine
译者 | 朱珂欣 责编 | 屠敏
出品 | CSDN(ID:CSDNnews)
众所周知,PostgreSQL是一个功能强大的开源对象关系数据库系统,它使用并扩展了SQL语言,并结合了许多可安全存储和扩展最复杂数据工作负载的特性。一直以来,PostgreSQL都在业内拥有极高的声誉,它的每一次版本的发布,都能在国内外获得很大的关注度。
2022年6月30日,PostgreSQL全球开发组宣布PostgreSQL 15的第二个beta版本已可供下载,该版本包含将于2022年末发布的PostgreSQL 15正式版本中的所有特性和功能。
被舍弃的统计信息收集器
信息传输受到阻力。
由于会话的每个后端是PostgreSQL中的单独进程,因此,收集统计信息并传输并不是容易的事。每个后端将有关它们执行的活动信息发送到单个“统计信息收集器”进程。在过去,这种通信是通过UDP套接字进行,在用户报告的不同类型问题中显示,有三类问题较为明显:统计数据过期;统计数据收集器不运行;自动真空不工作/不启动等。
并且,在过去如果统计数据收集器在特定机器上出现问题,用户其实很难理解出了什么问题。
大量IO出现。
“统计信息收集器”还有一个不利影响——它引起的IO。如果启用DEBUG级别 2,可能会看到不断出现在PostgreSQL 日志中的消息,将导致数据目录所在的装入点上出现大量 IO。
下图是参数值stats_temp_directory所指向的位置。在许多系统上,它将是数据目录中pg_stat_tmp。在Ubuntu/Debian上,它将在/var/run/postgresql中,例如:
PostgreSQL 15中的新动作
面对统计信息收集器带来的弊端,如今,PostgreSQL 15开始使用动态共享内存来收集统计信息,而不再使用文件和文件系统。
正如Andres Freund在文中提及的:
以前,统计信息收集器通过UDP接收统计信息更新,并通过定期将统计信息数据写出到临时文件来共享统计信息数据。这些文件可以达到数十兆字节,并且每秒最多写出两次。这会阻止我们添加其他有用的统计数据。
现在,统计信息都存储在共享内存中。可以变化的编号对象的统计信息,存储在由动态共享内存支持的 dshash 哈希表中。固定编号的统计信息,存储在普通共享内存中。pgstat.c 的标题包含体系结构的概述。
不再需要统计信息收集器,请将其删除。
在加载扩展库之前,目录保持为空。例如,如果我们加载pg_stat_statements库,目录中会出现一个文件。
当然,这些扩展都并非免费的,需要成本。
“none”是最有效的。如果存在期望的监视查询,则无法提供读取一致性。但对于大多数使用来说是可以的。
“cache ”能确保重复访问产生相同的值,对于涉及自联接的查询很重要。
stats_fetch_consistency的默认值为“cache ”。
更新迭代中的疑问与解答
面对PostgreSQL 15新版本中的重大调整,很多用户也会产生相关的疑惑。