- 概述
- 要求
- 安装
- 安装后
- 集群管理
- 监控和警示
- 迁移和升级
- 特定于产品的配置
- 最佳实践和维护
- 故障排除
备份和还原集群
为了使用备份和还原功能,您需要启用 NFS 服务器、备份集群和还原集群。所有三个定义如下。
NFS 服务器是存储备份数据并有助于简化还原的服务器。您可以在任何计算机上设置 NFS 服务器,也可以在云提供商提供的 PaaS 服务上设置。请注意,我们不支持基于 Windows 的 NFS 和基于 Azure Blob 的 NFS。
备份集群是安装 Automation Suite 的位置。这是指您在安装过程中设置的集群。
还原集群是您要从备份集群中还原所有数据的集群。还原完成后,此集群将成为您运行 Automation Suite 的新集群。
以下步骤显示了如何设置所有三个步骤。
- NFS 服务器应可从所有集群节点(备份集群和还原集群)访问。
- 要备份的集群和 NFS 服务器必须位于同一区域。
- 在集群还原之前,请确保按照 禁用集群备份中的说明禁用备份
-
确保启用以下端口:
端口
协议
来源
目标
用途
要求
2049
,111
TCP
NFS 服务器
备份集群中的所有节点
备份集群和 NFS 服务器之间的数据同步
在运行步骤 2:启用集群备份之前,应允许从 NFS 服务器到备份集群节点的通信。
2049
,111
TCP
备份集群中的所有节点
NFS 服务器
备份集群和 NFS 服务器之间的数据同步
在运行步骤 2:启用集群备份之前,应允许从备份集群节点到 NFS 服务器的通信。
2049
,111
TCP
NFS 服务器
还原集群中的所有节点
NFS 服务器和还原集群之间的数据同步
在运行步骤 3:设置还原集群之前,应允许从 NFS 服务器到还原集群节点的通信。
2049
,111
TCP
还原集群中的所有节点
NFS 服务器
备份集群和 NFS 服务器之间的数据同步
在运行步骤 3:设置还原集群之前,应允许从 NFS 服务器到备份集群节点的通信。
NFS 服务器必须满足以下要求:
-
您可以在所选的任何计算机和操作系统上设置 NFS 服务器,也可以使用云提供商提供的任何 PaaS 服务。请注意,我们不支持基于 Windows 的 NFS 和基于 Azure Blob 的 NFS。
-
Linux 上的 NFS 服务器版本必须是 NFSv4。
-
NFS 服务器必须在备份集群和还原集群外部运行。
-
NFS 服务器磁盘大小必须大于主服务器节点的数据磁盘大小。
有关更多详细信息,请参阅硬件要求。
nfs-utils
库。
dnf install nfs-utils -y
systemctl start nfs-server.service
systemctl enable nfs-server.service
dnf install nfs-utils -y
systemctl start nfs-server.service
systemctl enable nfs-server.service
配置要从 NFS 服务器公开的装载路径。
chown -R nobody: "/datadisk"
chmod -R 777 "/datadisk"
systemctl restart nfs-utils.service
chown -R nobody: "/datadisk"
chmod -R 777 "/datadisk"
systemctl restart nfs-utils.service
Firewalld 是一个管理网络和防火墙规则的安全库。
有关更多详细信息,请参阅 Firewalld 官方文档。
要禁用 Firewalld,请运行以下命令。
systemctl stop firewalld
systemctl disable firewalld
systemctl stop firewalld
systemctl disable firewalld
/etc/exports
文件,并为备份集群和还原群集的每个节点(服务器和代理)的 FQDN 添加一个条目。
以下是如何添加条目的示例,其中以下条目指定计算机的 FQDN 以及该计算机上的相应权限:
echo "/datadisk sfdev1868610-d053997f-node.eastus.cloudapp.azure.com(rw,sync,no_all_squash,root_squash)" >> /etc/exports
echo "/datadisk sfdev1868610-d053997f-node.eastus.cloudapp.azure.com(rw,sync,no_all_squash,root_squash)" >> /etc/exports
然后运行以下命令以导出安装路径:
exportfs -arv
exportfs -s
exportfs -arv
exportfs -s
- 请确保您已遵循环境先决条件步骤。
- 请务必备份用于安装的
cluster_config.json
文件。 - 此步骤不会为任何外部数据源备份(例如 SQL Server)启用备份。您需要单独启用外部数据源备份。
- 不建议将备份间隔缩短至 15 分钟以下。
- Automation Suite 不会备份所有永久性卷,例如附加到 AI Center 中训练管道的卷。 仅为少数持久性卷创建备份,例如
Alert Manager
、Prometheus
、Docker Registry
、MongoDB
、RabbitMQ
、Ceph Objectstore
和Insights
。
backup.json
。请务必根据以下字段定义填写该字段。
{
"backup": {
"etcdBackupPath": "PLACEHOLDER",
"nfs": {
"endpoint": "PLACEHOLDER",
"mountpath": "PLACEHOLDER"
}
},
"backup_interval": "15"
}
{
"backup": {
"etcdBackupPath": "PLACEHOLDER",
"nfs": {
"endpoint": "PLACEHOLDER",
"mountpath": "PLACEHOLDER"
}
},
"backup_interval": "15"
}
backup.etcdBackupPath
— 将在 NFS 服务器上存储备份数据的相对路径backup.nfs.endpoint
— NFS 服务器的端点(IP 地址或 DNS 名称)backup.nfs.mountpath
— NFS 服务器(端点)上的路径backup_interval
— 备份时间间隔(以分钟为单位)。
/datadisk/backup/cluster0
下:
{
"backup": {
"etcdBackupPath": "cluster0",
"nfs": {
"endpoint": "20.224.01.66",
"mountpath": "/datadisk"
}
}
}
{
"backup": {
"etcdBackupPath": "cluster0",
"nfs": {
"endpoint": "20.224.01.66",
"mountpath": "/datadisk"
}
}
}
要在集群的主节点上启用备份,请运行以下命令:
./install-uipath.sh -i backup.json -o output.json -b --accept-license-agreement
./install-uipath.sh -i backup.json -o output.json -b --accept-license-agreement
要在集群的辅助节点上启用备份,请在代理节点上运行以下命令:
./install-uipath.sh -i backup.json -o output.json -b -j server --accept-license-agreement
./install-uipath.sh -i backup.json -o output.json -b -j server --accept-license-agreement
- 还原集群应具有与备份集群相同的
fqdn
。 - 还原集群应具有与备份集群相同数量的
server
和agent
节点。 -
还原集群应具有与备份集群相同的
server
和agent
节点资源,如下所示:- CPU 的硬件配置
- 内存的硬件配置
- 磁盘空间的硬件配置
-
节点主机名
安装类型
安装指导
要求
在线单节点评估模式
仅下载sf-installer
zip,并将chmod -R 755 <sf_installer_folder>
提供给提取的文件夹。chmod -R 755 <sf_installer_folder>
提供给提取的文件夹。离线单节点评估模式
仅下载sf-installer
zip 和sf-infra-bundle.tar.gz
。chmod -R 755 <sf_installer_folder>
提供给提取的文件夹。在线多节点 HA 就绪生产模式
仅下载sf-installer
zip,并将chmod -R 755 <sf_installer_folder>
提供给提取的文件夹。离线多节点 HA 就绪生产模式
仅下载sf-installer
zip 和sf-infra-bundle.tar.gz
。chmod -R 755 <sf_installer_folder>
提供给提取的文件夹。创建一个文件并将其命名为restore.json
。请务必根据以下字段定义填写该字段。
{
"fixed_rke_address": "PLACEHOLDER",
"gpu_support": false,
"fqdn": "PLACEHOLDER",
"rke_token": "PLACEHOLDER",
"restore": {
"etcdRestorePath": "PLACEHOLDER",
"nfs": {
"endpoint": "PLACEHOLDER",
"mountpath": "PLACEHOLDER"
}
},
"infra": {
"docker_registry": {
"username": "PLACEHOLDER",
"password": "PLACEHOLDER"
}
}
}
{
"fixed_rke_address": "PLACEHOLDER",
"gpu_support": false,
"fqdn": "PLACEHOLDER",
"rke_token": "PLACEHOLDER",
"restore": {
"etcdRestorePath": "PLACEHOLDER",
"nfs": {
"endpoint": "PLACEHOLDER",
"mountpath": "PLACEHOLDER"
}
},
"infra": {
"docker_registry": {
"username": "PLACEHOLDER",
"password": "PLACEHOLDER"
}
}
}
fqdn
— 用于多节点 HA 就绪生产模式的负载均衡器 FQDN 或用于单节点评估模式的计算机 FQDNfixed_rke_address
— 负载均衡器的 fqdn(如果已配置),否则为第一个还原服务器节点的 fqdn。用于对节点注册和 kube API 请求进行负载均衡。gpu_support
- 使用true
或false
为集群启用或禁用 GPU 支持(如果您有带 GPU 的代理节点,请使用)。rke_token
— 这是一个预共享的、特定于集群的密码。这应该与备份集群相同,可以在cluster_config.json
文件中找到。加入集群的所有节点都需要它。restore.etcdRestorePath
— NFS 服务器中存储集群备份数据的路径。在备份时使用etcdBackupPath
进行配置。restore.nfs.endpoint
— NFS 服务器的端点。restore.nfs.mountpath
:NFS 服务器的装载路径。infra.docker_registry.username
— 您在备份集群中设置的用户名。可以在cluster_config.json
文件中找到它,并且是 Docker 注册表所必需的。infra.docker_registry.password
— 您在备份集群中设置的密码。可以在cluster_config.json
文件中找到它,并且是 Docker 注册表安装所必需的。
步骤 3.1:在集群的主节点上还原 etcd
etcd
,请运行以下命令:
./install-uipath.sh -i restore.json -o output.json -r --accept-license-agreement --install-type online
./install-uipath.sh -i restore.json -o output.json -r --accept-license-agreement --install-type online
步骤 3.2:在集群的辅助节点上还原 etcd
etcd
,请运行以下命令:
./install-uipath.sh -i restore.json -o output.json -r -j server --accept-license-agreement --install-type online
./install-uipath.sh -i restore.json -o output.json -r -j server --accept-license-agreement --install-type online
步骤 3.3:在集群的代理节点上还原 etcd
etcd
,请运行以下命令:
./install-uipath.sh -i restore.json -o output.json -r -j agent --accept-license-agreement --install-type online
./install-uipath.sh -i restore.json -o output.json -r -j agent --accept-license-agreement --install-type online
步骤 3.4:禁用维护模式
etcd
还原完成后,请确保禁用维护模式:
/path/to/old-installer/configureUiPathAS.sh disable-maintenance-mode
/path/to/old-installer/configureUiPathAS.sh disable-maintenance-mode
要验证维护模式是否已禁用,请运行以下命令:
/path/to/old-installer/configureUiPathAS.sh is-maintenance-enabled
/path/to/old-installer/configureUiPathAS.sh is-maintenance-enabled
步骤 3.5:在主节点上运行卷还原
etcd
还原完成后,请使用以下命令在主节点上运行卷还原:
./install-uipath.sh -i restore.json -o output.json -r --volume-restore --accept-license-agreement --install-type online
./install-uipath.sh -i restore.json -o output.json -r --volume-restore --accept-license-agreement --install-type online
步骤 3.6:在还原主节点上安装 Automation Suite 集群证书
sudo ./configureUiPathAS.sh tls-cert get --outpath /opt/
cp /opt/ca.crt /etc/pki/ca-trust/source/anchors/
update-ca-trust
sudo ./configureUiPathAS.sh tls-cert get --outpath /opt/
cp /opt/ca.crt /etc/pki/ca-trust/source/anchors/
update-ca-trust
在还原的集群上启用 AI Center
在启用 AI Center™ 的情况下还原 Automation Suite 集群后,请按照 在还原的集群上启用 AI Center 过程中的步骤操作。
步骤 3.1:在集群的主节点上还原 etcd
etcd
,请运行以下命令:
./install-uipath.sh -i restore.json -o output.json -r --offline-bundle "/uipath/sf-infra-bundle.tar.gz" --offline-tmp-folder /uipath --install-offline-prereqs --accept-license-agreement --install-type offline
./install-uipath.sh -i restore.json -o output.json -r --offline-bundle "/uipath/sf-infra-bundle.tar.gz" --offline-tmp-folder /uipath --install-offline-prereqs --accept-license-agreement --install-type offline
步骤 3.2:在集群的辅助节点上还原 etcd
./install-uipath.sh -i restore.json -o output.json -r -j server --offline-bundle "/uipath/sf-infra-bundle.tar.gz" --offline-tmp-folder /uipath --install-offline-prereqs --accept-license-agreement --install-type offline
./install-uipath.sh -i restore.json -o output.json -r -j server --offline-bundle "/uipath/sf-infra-bundle.tar.gz" --offline-tmp-folder /uipath --install-offline-prereqs --accept-license-agreement --install-type offline
步骤 3.3:在集群的代理节点上还原 etcd
etcd
,请运行以下命令:
./install-uipath.sh -i restore.json -o output.json -r -j agent --offline-bundle "/uipath/sf-infra-bundle.tar.gz" --offline-tmp-folder /uipath --install-offline-prereqs --accept-license-agreement --install-type offline
./install-uipath.sh -i restore.json -o output.json -r -j agent --offline-bundle "/uipath/sf-infra-bundle.tar.gz" --offline-tmp-folder /uipath --install-offline-prereqs --accept-license-agreement --install-type offline
步骤 3.4:禁用维护模式
etcd
还原完成后,请确保禁用维护模式:
/path/to/old-installer/configureUiPathAS.sh disable-maintenance-mode
/path/to/old-installer/configureUiPathAS.sh disable-maintenance-mode
要验证维护模式是否已禁用,请运行以下命令:
/path/to/old-installer/configureUiPathAS.sh is-maintenance-enabled
/path/to/old-installer/configureUiPathAS.sh is-maintenance-enabled
步骤 3.5:在主节点上运行卷还原
etcd
还原完成后,请使用以下命令在主节点上运行卷还原:
./install-uipath.sh -i restore.json -o ./output.json -r --volume-restore --accept-license-agreement --install-type offline
./install-uipath.sh -i restore.json -o ./output.json -r --volume-restore --accept-license-agreement --install-type offline
步骤 3.6:在还原主节点上安装 Automation Suite 集群证书
sudo ./configureUiPathAS.sh tls-cert get --outpath /opt/
cp /opt/ca.crt /etc/pki/ca-trust/source/anchors/
update-ca-trust
sudo ./configureUiPathAS.sh tls-cert get --outpath /opt/
cp /opt/ca.crt /etc/pki/ca-trust/source/anchors/
update-ca-trust
在还原的集群上启用 AI Center
在启用 AI Center™ 的情况下还原 Automation Suite 集群后,请按照 在还原的集群上启用 AI Center 过程中的步骤操作。
backup_interval
参数启用集群备份,以便在指定时间保存数据。禁用集群备份将导致在上次计划运行和禁用备份之间创建的数据丢失。
要禁用备份,请按此顺序运行以下命令:
要更新 NFS 服务器,请执行以下操作:
- 重新运行以下步骤:
- 更新 NFS 服务器信息,然后在
backup.json
和restore.json
文件中包括新的nfs.endpoint
。
要将新节点添加到集群,请重新运行以下步骤: