PostgreSQL 15 中值得关注的“大更新”

2022 年 9 月 6 日 CSDN

摘要:以前,统计信息收集器通过UDP接收统计信息更新,并通过定期将统计信息数据写出到临时文件来共享统计信息数据。当文件达到数十兆字节时,每秒最多写出两次,这会阻止添加其他有用的统计数据。现在,PostgreSQL 15将做出了重大的改变,开始使用动态共享内存来收集统计信息,而不再使用文件和文件系统。

原文链接:

https://www.percona.com/blog/postgresql-15-stats-collector-gone-whats-new/

声明:本文为CSDN翻译,转载请注明来源。

者 | Jobin Augustine

译者 | 朱珂欣      责编 | 屠敏

出品 | CSDN(ID:CSDNnews)

众所周知,PostgreSQL是一个功能强大的开源对象关系数据库系统,它使用并扩展了SQL语言,并结合了许多可安全存储和扩展最复杂数据工作负载的特性。一直以来,PostgreSQL都在业内拥有极高的声誉,它的每一次版本的发布,都能在国内外获得很大的关注度。

2022年6月30日,PostgreSQL全球开发组宣布PostgreSQL 15的第二个beta版本已可供下载,该版本包含将于2022年末发布的PostgreSQL 15正式版本中的所有特性和功能。

很多人将PostgreSQL 15与PostgreSQL 14相比较,就会发现有一个特别的更新——"统计信息收集器"不见了。曾经是无数开发者的开发瓶颈,如今已经永远消失了。 作为PostgreSQL 14和更早版本都需要“统计信息收集器”,它存在怎样的问题呢?PostgreSQL 15又新增了什么样的功能?

被舍弃的统计信息收集器


PostgreSQL的统计信息收集器,是一个支持收集和报告服务器活动信息的子系统。它可以对表和索引的访问计数,以此累计统计信息。并且,还可以跟踪每个表中的总行数、每个表的清理和分析动作的信息,以及统计调用用户定义函数的次数和在每次调用中花费的总时间。
但是,PostgreSQL的统计信息收集器同样存在一些问题。
  • 信息传输受到阻力。

由于会话的每个后端是PostgreSQL中的单独进程,因此,收集统计信息并传输并不是容易的事。每个后端将有关它们执行的活动信息发送到单个“统计信息收集器”进程。在过去,这种通信是通过UDP套接字进行,在用户报告的不同类型问题中显示,有三类问题较为明显:统计数据过期;统计数据收集器不运行;自动真空不工作/不启动等。

并且,在过去如果统计数据收集器在特定机器上出现问题,用户其实很难理解出了什么问题。

  • 大量IO出现。

“统计信息收集器”还有一个不利影响——它引起的IO。如果启用DEBUG级别 2,可能会看到不断出现在PostgreSQL 日志中的消息,将导致数据目录所在的装入点上出现大量 IO。

下图是参数值stats_temp_directory所指向的位置。在许多系统上,它将是数据目录中pg_stat_tmp。在Ubuntu/Debian上,它将在/var/run/postgresql中,例如:

PostgreSQL 15中的新动作


面对统计信息收集器带来的弊端,如今,PostgreSQL 15开始使用动态共享内存来收集统计信息,而不再使用文件和文件系统。

正如Andres Freund在文中提及的:

以前,统计信息收集器通过UDP接收统计信息更新,并通过定期将统计信息数据写出到临时文件来共享统计信息数据。这些文件可以达到数十兆字节,并且每秒最多写出两次。这会阻止我们添加其他有用的统计数据。

现在,统计信息都存储在共享内存中。可以变化的编号对象的统计信息,存储在由动态共享内存支持的 dshash 哈希表中。固定编号的统计信息,存储在普通共享内存中。pgstat.c 的标题包含体系结构的概述。 

不再需要统计信息收集器,请将其删除。

显然,参数stats_temp_directory已经消失。因此,不再需要pg_stat_tmp目录了,pg_stat_tmp目录是在数据目录或其他位置中创建的,所有统计文件都在此生成和读取。然而,仍保留它是因为不会破坏许多依赖于该目录的扩展,例如pg_stat_statements。

在加载扩展库之前,目录保持为空。例如,如果我们加载pg_stat_statements库,目录中会出现一个文件。

当然,这些扩展都并非免费的,需要成本。 

在新架构中,大多数统计更新时,首先需要在每个进程中本地累积为"pending"(每个后端都有一个后端本地哈希表)。"pending"是指已累积但尚未提交到共享统计系统的待定信息。在提交后或超时后,会被刷入共享内存。
由于统计信息是在有人试图读取时被并发更新的,所以读取一致性就成了问题。 为了解决读取一致性的问题=PostgreSQL 15引入了一个新的参数:stats_fetch_consistency。 它可以取三个值,none、cache 、snapshot:
  • “none”是最有效的。如果存在期望的监视查询,则无法提供读取一致性。但对于大多数使用来说是可以的。

  • “cache ”能确保重复访问产生相同的值,对于涉及自联接的查询很重要。

  • “snapshot”在以交互方式检查统计信息时很有用,但开销更高。

stats_fetch_consistency的默认值为“cache ”。


更新迭代中的疑问与解答


面对PostgreSQL 15新版本中的重大调整,很多用户也会产生相关的疑惑。

  • 统计信息位于共享内存中,如何在重新启动后保存?
统计信息在关机前,由检查点进程写出到文件系统,并在启动期间由启动进程再次装回。像往常一样,如果发生崩溃,统计信息将会失效。
  • 新功能会影响监控工具/脚本吗?
显然是不会,所有的统计监测视图pg_stat_*仍能照常工作,但需要为stats_fetch_consistency选择适当的值。如上所述,保留pg_stat_tmp目录是为了不破坏使用这种方法开发的扩展。但是,扩展开发人员需要针对PostgreSQL 15彻底测试扩展。
  • 如何使用PostgreSQL等待事件,了解PostgreSQL及其会话在哪里花费的时间呢?
日常生活中使用的数据收集和分析工具,例如pg_gather,利用这些等待事件分析和了解问题。 因此,为了更好地监控,PostgreSQL还引入了三个新的等待事件。
  • PgSta tsDSA: 等待统计动态共享内存分配器访问。
  • PgStatsHash: 等待stats共享内存哈希表访问。
  • PgStatsData: 等待共享内存统计数据访问。
总的来说,PostgreSQL 15不再需要统计信息收集器,而是将统计信息都存储在共享内存中。随着统计收集器及其维护的所有开销的消失,其他子系统,例如自动真空系统,工作量将大大减少,经常查询统计信息的监控工具将会大大降低系统的负载。
— 推荐阅读 —
   
   
     
一个不会画画的人,用 AI 生成的画作拿下了大赛第一,还不违规......
微软前UX总监疯狂吐槽Windows 11开始菜单设计:界面混杂,用户体验极差
人才紧缺,台积电月薪8.7k招大四实习生;华为Mate 50价格曝光:4988元起;Meta被罚4亿美元|极客头条

登录查看更多
0

相关内容

《对2023年美国防预算请求的分析》2022最新美智库报告
专知会员服务
21+阅读 · 2022年10月25日
最新《Transformers》报告,Google Lucas Beyer 报告
专知会员服务
67+阅读 · 2022年9月13日
「机器学习中差分隐私」最新2022进展综述
专知会员服务
51+阅读 · 2022年9月9日
时空数据挖掘:综述
专知会员服务
97+阅读 · 2022年6月30日
专知会员服务
94+阅读 · 2021年5月17日
最新《流处理系统演化》综述论文,34页pdf
专知会员服务
20+阅读 · 2020年8月4日
【干货书】Python语音计算导论,408页pdf
专知会员服务
101+阅读 · 2020年7月12日
开源数据库为什么能捕获开发者的心?
CSDN
0+阅读 · 2022年9月19日
微信更新这半年
人人都是产品经理
0+阅读 · 2022年8月2日
从Redis7.0发布看Redis的过去与未来
阿里技术
1+阅读 · 2022年5月31日
Android 13 Beta 版发布,诸多亮点不容错过
谷歌开发者
0+阅读 · 2022年4月28日
提前尝鲜,Android 13首个Beta发布
CSDN
0+阅读 · 2022年4月27日
Andy Pavlo:回顾数据库的 2021
InfoQ
0+阅读 · 2022年1月25日
2022年值得期待的7个Linux发行版
AI前线
0+阅读 · 2022年1月14日
PostgreSQL数据目录深度揭秘
阿里技术
0+阅读 · 2021年8月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2022年11月26日
Arxiv
0+阅读 · 2022年11月24日
Arxiv
0+阅读 · 2022年11月23日
Arxiv
23+阅读 · 2021年3月4日
已删除
Arxiv
32+阅读 · 2020年3月23日
VIP会员
相关VIP内容
《对2023年美国防预算请求的分析》2022最新美智库报告
专知会员服务
21+阅读 · 2022年10月25日
最新《Transformers》报告,Google Lucas Beyer 报告
专知会员服务
67+阅读 · 2022年9月13日
「机器学习中差分隐私」最新2022进展综述
专知会员服务
51+阅读 · 2022年9月9日
时空数据挖掘:综述
专知会员服务
97+阅读 · 2022年6月30日
专知会员服务
94+阅读 · 2021年5月17日
最新《流处理系统演化》综述论文,34页pdf
专知会员服务
20+阅读 · 2020年8月4日
【干货书】Python语音计算导论,408页pdf
专知会员服务
101+阅读 · 2020年7月12日
相关资讯
开源数据库为什么能捕获开发者的心?
CSDN
0+阅读 · 2022年9月19日
微信更新这半年
人人都是产品经理
0+阅读 · 2022年8月2日
从Redis7.0发布看Redis的过去与未来
阿里技术
1+阅读 · 2022年5月31日
Android 13 Beta 版发布,诸多亮点不容错过
谷歌开发者
0+阅读 · 2022年4月28日
提前尝鲜,Android 13首个Beta发布
CSDN
0+阅读 · 2022年4月27日
Andy Pavlo:回顾数据库的 2021
InfoQ
0+阅读 · 2022年1月25日
2022年值得期待的7个Linux发行版
AI前线
0+阅读 · 2022年1月14日
PostgreSQL数据目录深度揭秘
阿里技术
0+阅读 · 2021年8月31日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
相关论文
Arxiv
0+阅读 · 2022年11月26日
Arxiv
0+阅读 · 2022年11月24日
Arxiv
0+阅读 · 2022年11月23日
Arxiv
23+阅读 · 2021年3月4日
已删除
Arxiv
32+阅读 · 2020年3月23日
Top
微信扫码咨询专知VIP会员