- 概述
- 要求
- 安装
- 安装后
- 集群管理
- 监控和警示
- 迁移和升级
- 特定于产品的配置
- 最佳实践和维护
- 故障排除
- 无法获取沙盒映像
- Pod 未显示在 ArgoCD 用户界面中
- Redis 探测器失败
- RKE2 服务器无法启动
- 在 UiPath 命名空间中找不到密码
- 初始安装后,ArgoCD 应用程序进入“进行中”状态
- MongoDB Pod 处于 CrashLoopBackOff 状态或在删除后处于“等待 PVC 配置”状态
- 意外错误:不一致;手动运行 fsck
- 集群还原后 MongoDB 或业务应用程序降级
- 缺少 Self-heal-operator 和 Sf-k8-utils 存储库
- 集群还原或回滚后服务不正常
- RabbitMQ Pod 卡在 CrashLoopBackOff 中
- Prometheus 处于 CrashLoopBackoff 状态,并出现内存不足 (OOM) 错误
- 监控仪表板中缺少 Ceph-rook 指标
- Pod 无法在代理环境中与 FQDN 通信
- 使用 Automation Suite 诊断工具
- 使用 Automation Suite 支持包工具
- 探索日志
备份和还原集群
Automation Suite 支持备份和还原功能,以防止在各种情况下丢失数据。 您可以在安装后随时配置备份。
要使用备份和还原功能,您必须启用 NFS 服务器、备份集群和还原集群。 下节将定义这些概念。
NFS 服务器 - 存储备份数据并有助于简化还原的服务器。您可以在任何计算机上设置 NFS 服务器,也可以在云提供商提供的 PaaS 服务上设置。请注意,我们不支持基于 Windows 的 NFS 和基于 Azure Blob 的 NFS。
备份集群 – 您为安装 Automation Suite 而设置的集群。您将在其中启用备份的集群。
“还原集群” – 用于还原备份集群中所有数据的集群。 还原过程完成后,这将成为您运行 Automation Suite 的新集群。
/datadisk
中集群内存储的一部分存储的数据。
但是,这不会启用任何外部数据源(例如 SQL 数据库)的备份。 您必须单独启用外部数据源备份。
- 配置 NFS 服务器以允许访问新节点。 有关详细信息,请参阅 允许节点访问 NFS 装载点。
-
在新的服务器节点上启用备份:
要设置备份和还原功能,您必须满足以下要求:
- 您必须在 Linux 上使用 NFSv4。
- 您必须在备份和还原集群外部托管的单独计算机上设置 NFS 服务器。
- NFS 服务器与备份和还原集群之间的往返时间 (RTT) 延迟不得超过 10 毫秒。
- 要备份的集群和 NFS 服务器必须位于同一区域。
-
NFS 服务器必须满足以下硬件要求:
CPU
RAM
磁盘
4 (v-)CPU
16GB
10 TiB SSD (1100 IOPS)
- 必须可从所有集群节点访问 NFS 服务器。
-
您必须在 NFS 服务器和备份集群中的所有节点上启用以下端口。 还原集群时,必须在还原集群中的所有节点上打开相同的端口。
端口
协议
用途
2049
TCP
NFS 服务器与备份和还原集群之间的双向通信。
这是运行 NFS 服务器的端口。
111
TCP
NFS 服务器与备份和还原集群之间的双向通信。
此端口用于 NFS 服务器与备份和还原集群之间的 rpcbind。
backup.json
的文件中配置备份服务器和时间间隔。
为此,请执行以下步骤:
-
创建一个名为
backup.json
的文件。{ "backup": { "etcdBackupPath": "PLACEHOLDER", "nfs": { "endpoint": "PLACEHOLDER", "mountpath": "PLACEHOLDER" } }, "backup_interval": "15" }
{ "backup": { "etcdBackupPath": "PLACEHOLDER", "nfs": { "endpoint": "PLACEHOLDER", "mountpath": "PLACEHOLDER" } }, "backup_interval": "15" } -
根据以下字段定义填写文件:
参数
配置
backup.etcdBackupPath
将在 NFS 服务器上存储备份数据的相对路径。您可以将其名称指定为集群名称。
示例:cluster0
。backup.nfs.endpoint
NFS 服务器的端点(IP 地址或 DNS 名称)。这将是 NFS 计算机的 FQDN 或 IP 地址。端点中不得存在任何协议。
示例:nfs.automationsuite.mycompany.com
或20.224.01.66
backup.nfs.mountpath
NFS 服务器(端点)上的路径。这是您附加用于存储集群备份的磁盘的位置。
示例:/asbackup
。backup_interval
备份时间间隔(以分钟为单位)。 此间隔是两个连续备份之间的提前时间。 您只能还原上次成功的备份,因此应谨慎决定此时间间隔。 最短备份间隔可低至 15 分钟。
重要提示:- 如果备份间隔过短(例如 30 分钟),则备份操作将过于频繁,从而迫使您仅存储过去 30 分钟内备份的数据。 同样,如果备份间隔为 1 周,则在上次备份和灾难之间的间隔期间,这可能会导致数据丢失。 因此,建议根据恢复点目标 (RPO) 要求保持备份间隔。
- 设置外部 SQL Server 的备份时,应考虑集群备份间隔。 建议为外部 SQL Server 和 Automation Suite 集群设置相同的时间间隔。
- 在集群中启用备份后,无论备份间隔如何,Automation Suite 都会立即触发备份。 之后,将根据备份间隔计划下一次备份。
- 您可以通过登录 NFS 服务器并导航到以下路径来验证备份:
/backup.nfs.mountpath/backup.etcdBackupPath
。 例如:/asbackup/cluster0
。
Alert Manager
、 Prometheus
、 Docker Registry
、 MongoDB
、 RabbitMQ
、 Ceph Objectstore
和Insights
。
restore.json
的文件中提供还原服务器配置。
为此,请执行以下步骤:
-
创建一个名为
restore.json
的文件。{ "restore": { "etcdRestorePath": "PLACEHOLDER", "nfs": { "endpoint": "PLACEHOLDER", "mountpath": "PLACEHOLDER" } } }
{ "restore": { "etcdRestorePath": "PLACEHOLDER", "nfs": { "endpoint": "PLACEHOLDER", "mountpath": "PLACEHOLDER" } } } -
根据以下字段定义填写文件:
参数
配置
restore.etcdRestorePath
NFS 服务器上将从其还原数据的路径。 它必须与您在backup.json
中为backup.etcBackupPath
提供的名称相同。示例:cluster0
。restore.nfs.endpoint
NFS 服务器的端点。 这将是 NFS 计算机的 FQDN 或 IP 地址。 端点中不得存在任何协议。
示例:nfs.automationsuite.mycompany.com
或20.224.01.66
restore.nfs.mountpath
NFS 服务器的装载路径。 这是您附加磁盘以存储集群备份的位置。
示例:/asbackup
。