我们的 PostgreSQL 12 迁移之路（Our Last Journey）

2020 年 11 月，我们开始了一次大规模的迁移，将 PostgreSQL 集群从 9.6 版本升级到 12.4 版本。在这篇文章中，我将概要地介绍下我们在 Coffee Meets Bagel 采用的架构，带你看一下我们在累计停机时间不到 30 分钟的情况下完成升级所采取的步骤，并分享一些经验教训。

本文最初发布于 Coffee Meets Bagel 工程博客，经原作者授权由 InfoQ 中文站翻译并分享。

架构

你可能不了解 Coffee Meets Bagel，我们是一个精心策划的约会应用。每天中午，约会者都会收到一定数量的高质量候选人。我们的负载模式具有非常好的可预见性。在撰写这篇文章的前一周，我们的平均交易数徘徊在每秒 3 万笔左右，而在更大的市场中，我们的最高交易数是每秒 6.5 万笔。

在升级之前，我们在 AWS i3.8xlarge 实例上运行了 6 个 Postgres 服务器。其中包扩一个主节点，三个服务于只读 Web 流量的副本（通过 HAProxy 实现负载均衡），一个专用于异步工作线程的服务器，还有一个用于 ETL 和 BI 的服务器。

我们使用 Postgres 内置的流复制来保证副本集群是最新的。

升级原因

在过去的几年里，在很大程度上，我们忽略了数据层，因此它们已经有点老迈了。特别是我们的主服务器已经积攒了很多问题——它在线已经有大约 3 年半的时间了，各种系统库和服务都打过补丁。

我提供给r/uptimeporn的数据

因此，它有许多让我们紧张的稀奇古怪的问题：新服务拒绝在 systemd 中运行（我们最后在一个 screen 会话中运行了一个 datadog 代理），有时当 CPU 使用率超过 50%，对 SSH 就完全无响应了（同时继续服务于查询）。

此外，我们的磁盘使用开始变得不稳定。正如我前面提到的，我们在 EC2 i3.8xlarge 实例上运行 Postgres，该实例带有 7.6TB 的 NVMe 存储。和 EBS 不同，它不能动态调整大小，所以有多大就是多大，而且磁盘的 75%已经填满。为了支持未来的增长，我们必须升级实例大小。

我们的需求

最小化停机时间——我们的目标是累计停机时间 4 小时，包括升级过程中的错误所导致的意外停机。
在新实例上构建一个新的数据库集群，以取代我们当前老化的服务器集群。
升级到 i3.16xlarge 实例，留下增长空间。

我们知道三种 Postgres 升级方法：典型的备份和还原过程、pg_upgrade 和逻辑复制。

我们很快就放弃了备份和还原方法，因为我们的数据集有 5.7TB，需要花费的时间太长了。pg_upgrade 虽然快，但它是就地升级，不满足条件 2 和 3。所以，我们下一步是进行逻辑复制。

过程

关于 pglogology 的安装和使用，已经有很多资料，所以我就不重复了，下面这些链接我认为非常有帮助：

https://www.depesz.com/2016/11/08/major-version-upgrading-with-minimal-downtime/

https://info.crunchydata.com/blog/upgrading-postgresql-from-9.4-to-10.3-with-pglogical

http://thedumbtechguy.blogspot.com/2017/04/demystifying-pglogical-tutorial.html

我们创建了一个 Postgres 12 服务器，它将成为我们新的主服务器，并使用 pglogical 来同步所有数据。一旦它复制完旧数据并开始复制传入的更改，我们就在它后面添加流副本。当我们每准备好一个新的流副本，就把它添加到 HAProxy 中，同时删除一个旧的 9.6 副本。我们就这样一直做，直到除了主服务器之外的所有 Postgres 9.6 服务器都已退出，此时，我们的状态如下：