- 概述
- 要求
- 部署模板
- 手动:准备安装
- 手动:准备安装
- 步骤 2:为离线安装配置符合 OCI 的注册表
- 步骤 3:配置外部对象存储
- 步骤 4:配置 High Availability Add-on
- 步骤 5:配置 SQL 数据库
- 步骤 6:配置负载均衡器
- 步骤 7:配置 DNS
- 步骤 8:配置磁盘
- 步骤 9:配置内核和操作系统级别设置
- 步骤 10:配置节点端口
- 步骤 11:应用其他设置
- 步骤 12:验证并安装所需的 RPM 包
- 步骤 13:生成 cluster_config.json
- 证书配置
- 数据库配置
- 外部对象存储配置
- 预签名 URL 配置
- Kerberos 身份验证配置
- 符合 OCI 的外部注册表配置
- Disaster Recovery:主动/被动和主动/主动配置
- High Availability Add-on 配置
- 特定于 Orchestrator 的配置
- Insights 特定配置
- Process Mining 特定配置
- Document Understanding 特定配置
- Automation Suite Robot 特定配置
- 监控配置
- 可选:配置代理服务器
- 可选:在多节点 HA 就绪生产集群中启用区域故障恢复
- 可选:传递自定义 resolv.conf
- 可选:提高容错能力
- install-uipath.sh 参数
- 添加具有 GPU 支持的专用代理节点
- 为 Task Mining 添加专用代理节点
- 连接 Task Mining 应用程序
- 为 Automation Suite Robot 添加专用代理节点
- 步骤 15:为离线安装配置临时 Docker 注册表
- 步骤 16:验证安装的先决条件
- 手动:执行安装
- 安装后
- 集群管理
- 监控和警示
- 迁移和升级
- 特定于产品的配置
- 最佳实践和维护
- 故障排除
- 如何在安装过程中对服务进行故障排除
- 如何卸载集群
- 如何清理离线工件以改善磁盘空间
- 如何清除 Redis 数据
- 如何启用 Istio 日志记录
- 如何手动清理日志
- 如何清理存储在 sf-logs 存储桶中的旧日志
- 如何禁用 AI Center 的流日志
- 如何对失败的 Automation Suite 安装进行调试
- 如何在升级后从旧安装程序中删除映像
- 如何禁用 TX 校验和卸载
- 如何从 Automation Suite 2022.10.10 和 2022.4.11 升级到 2023.10.2
- 如何手动将 ArgoCD 日志级别设置为 Info
- 如何扩展 AI Center 存储
- 如何为外部注册表生成已编码的 pull_secret_value
- 如何解决 TLS 1.2 中的弱密码问题
- 如何使用证书
- 如何将应用程序日志转发到 Splunk
- 如何从注册表 Pod 中清理未使用的 Docker 映像
- 如何使用集群内对象存储 (Ceph) 收集 DU 使用情况数据
- 如何在离线环境中安装 RKE2 SELinux
- 如何清理 NFS 服务器上的旧差异备份
- 升级 Automation Suite 后重新安装或升级 Insights 时丢失数据
- 单节点升级在结构阶段失败
- 从 2021.10 自动升级后,集群运行状况不佳
- 由于 Ceph 运行状况不佳,升级失败
- 由于空间问题,RKE2 未启动
- 卷无法装载,且仍处于附加/分离循环状态
- 由于 Orchestrator 数据库中的传统对象,升级失败
- 并行升级后,发现 Ceph 集群处于降级状态
- Insights 组件运行状况不佳导致迁移失败
- Apps 服务升级失败
- 就地升级超时
- Docker 注册表迁移卡在 PVC 删除阶段
- 升级到 2023.10 或更高版本后 AI Center 配置失败
- 在离线环境中升级失败
- 升级期间 SQL 验证失败
- 快照-控制器-crds Pod 在升级后处于 CrashLoopBackOff 状态
- Longhorn REST API 端点升级/重新安装错误
- 由于 Insights PVC 大小被覆盖,升级失败
- 预服务脚本执行期间服务升级失败
- 使用 Process Mining 运行高可用性
- 使用 Kerberos 登录时 Process Mining 挖掘失败
- 在 Disaster Recovery 后,DAPR 无法正常用于 Process Mining
- 在集群模式下使用 Redis 配置 Dapr
- 无法使用 pyodbc 格式连接字符串连接到 AutomationSuite_ProcessMining_Warehouse 数据库
- Airflow 安装失败,并显示 sqlalchemy.exc.ArgumentError:无法从字符串“”中解析 rfc1738 URL
- 如何添加 IP 表格规则以使用 SQL Server 端口 1433
- 运行 CData Sync 的服务器不信任 Automation Suite 证书
- 运行诊断工具
- 使用 Automation Suite 支持捆绑包
- 探索日志
- 探索汇总遥测

Linux 版 Automation Suite 安装指南
步骤 3:部署后步骤
使用 Azure 堡垒时,请记住,使用\拆分为多行的复制粘贴命令可能无法按预期工作。 为确保正确解释新行,请使用控制台的剪贴板微件。
验证安装
若要检查 Automation Suite 是否已成功安装,您必须转到标志容器内的存储帐户。 如果自动生成的名为installResult的文件(在容器中)的内容为successful ,则安装完成。 如果安装失败,则内容将为failed 。
更新证书
安装流程会代表您生成自签名证书。这些证书符合 FIPS 140-2。您也可以通过 Azure 部署模板,选择在安装时提供由 CA 颁发的服务器证书,而不是使用自动生成的自签名证书。
自签名证书将在 90 天后过期,安装完成后,您必须将其替换为由受信任的 CA 签名的证书。如果不更新证书,安装将在 90 天后停止工作。
如果您在启用 FIPS 140-2 的主机上安装了 Automation Suite,并想要更新证书,请确保它们与 FIPS 140-2 兼容。
有关说明,请参阅管理证书。
启用 FIPS 140-2
使用 Azure 部署模板完成 Automation Suite 安装后,您可以在计算机上启用 FIPS 140-2。有关说明,请参阅安全性与合规性。
探索标志和日志
如果您需要有关 Automation Suite 安装流程或其他操作的更多信息,则可以从用于在集群部署和维护期间存储各种标志和日志的存储帐户入手。
若要找到存储帐户,请执行以下步骤:
-
导航到执行部署的资源组。
-
按资源类型“存储帐户”筛选。
-
找到名称以
st结尾的存储帐户。 例如:
-
选择存储帐户,然后选择“容器” 。选项为标志和日志。

标志容器
标志容器存储编排所需的各种标志或文件,或仅用于报告各种操作的状态。 在新集群上,标志容器内容通常如以下示例所示:

标志容器中的文件用于编排各种操作,例如集群上的 Automation Suite 安装流程,或特定集群操作,例如实例刷新。 例如:
uipath-server-000000.success表示已在集群的该特定节点上成功完成基础架构安装;- 如果整体安装成功,则
installResult将显示为success。
日志容器
执行操作时,它通常会在日志容器中生成一个日志文件。 在新集群上,日志容器内容通常如以下示例所示:

日志容器中的每个文件都代表安装过程中特定步骤的日志。 例如:
infra-uipath-server-000000.log存储基础架构安装日志;fabric.log存储结构安装的日志;services.log存储应用程序和服务安装的日志。
访问部署输出
安装完成后,您需要访问“输出”选项卡中的“部署输出”。
为此,请转到“资源组”,然后转到“部署”→“主模板(或类似 Microsoft.Template- DateTime ”)→“输出”。



部署输出
| 输出 | 描述 |
|---|---|
| 文档 | 文档链接。 |
| URL | 负载均衡器 URL。可用于直接访问。 如果启用了自定义域,则此域将用于真实名称绑定。 |
| 密钥保险库 URL | 部署创建的密钥保险库的 Azure 门户 URL。它包含部署中使用的所有密码(凭据)。 |
| ArgoCDURL | 用于访问 ArgoCD 的 URL。这在 VNet 中可用。必须按照步骤 4:配置 DNS 中的说明设置对此 URL 的外部访问。 |
| ArgoCD 密码 | 用于登录 ArgoCD 门户的密码。 |
| 主机管理员用户名和主机管理员密码 | 用于主机管理员的凭据。 |
| 集群管理 URL | 集群管理门户的 URL。 |
| DashboardMonitoringURL | 仪表板 (Grafana) 监控工具的 URL: https://monitoring.<fqdn>/dashboard 。确保将<fqdn>替换为您的 FQDN。 |
| MetricsMonitoringURL | “指标 (Prometheus)”监控工具的 URL: https://monitoring.<fqdn>/metrics 。确保将<fqdn>替换为您的 FQDN。 |
| AlertmanagerMonitoringURL | Alertmanager 监控工具的 URL: https://monitoring.<fqdn>/alertmanager 。确保将<fqdn>替换为您的 FQDN。 |
部署中使用的所有凭据都作为密码存储在部署期间配置的密钥保险库中。要访问密码,请在“资源组” 中筛选资源,搜索“保险库” ,然后选择“密码” 。
如果您在“密码”选项卡下看到 The operation "List" is not enabled in the key vault's access policy 警告,请执行以下步骤:
- 转到“访问策略”→“添加访问策略”→“配置模板”→“密码管理”→“选择主体”。
- 选择您的用户,然后选择“保存” 。
- 导航回“密码”。警告应该消失,并且密码应该是可见的。

访问集群虚拟机
虚拟机需在私有 VNet 中加以配置。您可以按照以下步骤通过 Azure 堡垒对其加以访问:
-
导航到已部署 Automation Suite 的资源组。
-
由于代理、GPU 代理和服务器虚拟机位于规模集内,因此您必须转到包含所需实例的规模集。

-
转到“设置”选项卡中的“实例”部分。

-
选择要连接的虚拟机的名称。

-
选择“连接”按钮,然后从下拉菜单中选择“堡垒” 。

-
输入部署中提供的凭据( “管理员用户名”和“管理员密码”参数,您可以在“密码”下的凭据密钥保险库中找到这些凭据),然后选择“连接” 。

DNS 要求
如步骤 1:准备 Azure 部署中所述,Automation Suite Azure 部署将创建一个具有公共 IP 和关联的 DNS 标签的负载均衡器。此 DNS 标签归 Microsoft 所有。
该部署还在集群 VNet 内配置了一个私有 DNS 区域,并添加了在安装和配置流程中使用的几个记录。
如果您选择从外部计算机连接,则无法使用私有 DNS 区域来解析各种服务的 DNS,因此您需要将这些记录添加到主机文件中。
有关更多详细信息,请参阅步骤 4:配置 DNS。
现在,您应该能够连接到集群上运行的各种服务。
访问集群管理门户
集群管理门户是一个集中位置,您可以在此找到完成 Automation Suite 安装和执行常见的安装后操作所需的所有资源。有关详细信息,请参阅集群管理门户入门。
要访问“集群管理”门户,请执行以下步骤:
转到以下 URL:https://${CONFIG_CLUSTER_FQDN}/uipath-management。
You do not need any credentials to access the Cluster Administration portal.
访问 Automation Suite 常规界面
通用的 Automation Suite 用户界面可用作组织管理员和组织用户的门户。它是常见的组织级别资源,每个人都可以从中访问 Automation Suite 的所有区域:管理页面、平台级别页面、特定于服务的页面和特定于用户的页面。
要访问 Automation Suite,请执行以下步骤:
- 转到以下 URL:
https://${Loadbalancer_dns},其中<loadbalancer_dns>是负载均衡器的 DNS 标签,位于“输出”下。 - 切换到默认组织。
- 用户名是组织管理员。
- 转到“密钥保险库” 、 “密码”和“主机管理员密码”,检索密码。
访问主机管理
主机门户是系统管理员配置 Automation Suite 实例的地方。从该门户配置的设置将由您的所有组织继承,有些设置可以在组织级别覆盖。
要访问主机管理,请执行以下步骤:
- 转到以下 URL:
https://${Loadbalancer_dns},其中<loadbalancer_dns>是负载均衡器的 DNS 标签,位于“输出”下。 - 切换到主机组织。
- 输入您先前指定的用户名作为UiPath 管理员用户名参数的值。
- 输入先前指定的密码作为“UiPath 管理员密码”参数的值。转到“密钥保险库” 、 “密码”和“主机管理员密码”,检索密码。
访问 ArgoCD
您可以使用 ArgoCD 控制台来管理已安装的产品。
要访问 ArgoCD,请执行以下步骤:
- 转到以下 URL:
https://alm.${Loadbalancer_dns},其中<loadbalancer_dns>是负载均衡器的 DNS 标签,位于“输出”下。 请注意,您必须按照步骤 4:配置 DNS 中的说明配置对此 URL 的外部访问。 - 用户名是管理员。
- 要访问密码,请转到“输出”选项卡或凭据密钥保险库。
访问监控工具
首次访问监控工具时,请使用以下默认凭据以管理员身份登录:
- 用户名: admin
- 密码:要检索密码,请运行以下命令:
kubectl get secrets/dex-static-credential -n uipath-auth -o "jsonpath={.data['password']}" | base64 -dkubectl get secrets/dex-static-credential -n uipath-auth -o "jsonpath={.data['password']}" | base64 -d
要在访问监控工具时更新用于 Dex 身份验证的默认密码,请执行以下步骤。
- 通过将
newpassword替换为您的新密码来运行以下命令:password="newpassword" password=$(echo -n $password | base64) kubectl patch secret dex-static-credential -n uipath-auth --type='json' -p="[{'op': 'replace', 'path': '/data/password', 'value': '$password'}]"password="newpassword" password=$(echo -n $password | base64) kubectl patch secret dex-static-credential -n uipath-auth --type='json' -p="[{'op': 'replace', 'path': '/data/password', 'value': '$password'}]" - 运行以下命令以更新密码:
./install-uipath.sh -i /opt/UiPathAutomationSuite/cluster_config.json -o ./output.json -f --accept-license-agreement./install-uipath.sh -i /opt/UiPathAutomationSuite/cluster_config.json -o ./output.json -f --accept-license-agreement
扩展集群
从部署中配置的计算资源由 Azure 规模集组成,可轻松实现扩展。
您可以手动将其他资源添加到特定的规模集,包括添加服务器节点、代理节点或专用代理节点(例如 GPU 节点)。
您可以通过识别特定的规模集并直接添加资源来执行手动扩展。
为此,请执行以下步骤:
-
转到 Azure 门户并筛选特定的规模集:

-
选择适当的规模集,然后选择“缩放比例” 。

-
使用滑块或旁边的输入字段修改“实例计数”字段,然后选择“保存” 。
备注:对于服务器规模集,实例计数需要为奇数。
-
缩放操作应在后台启动,完成后即有新资源可用。
完成升级
执行 Automation Suite 集群升级后,Azure 模板部署需要进行一些更改,以确保新节点正确加入集群。要自动执行更改,我们建议使用专用脚本。有关说明,请参阅Azure 部署模板文档。
Azure 虚拟机生命周期操作
Azure 最多允许有15 分钟的时间来准备关闭,而 Automation Suite 节点的正常终止时间从 20 分钟(对于代理和 GPU 代理节点)到几个小时(对于服务器节点)不等。
为避免数据丢失,已将服务器的 VMSS升级策略设置为“手动”,并且已为服务器虚拟机启用规模集操作保护。因此,我们建议通过提供的 Runbook 管理服务器的生命周期。
The InstanceRefresh, RemoveNodes, RemoveServers, and CheckServerZoneResilience runbooks are supported only for multi-node HA-ready production deployments.
运行任何 Runbook 后的服务器数量必须为奇数,且必须大于三(例如,如果有 4 台服务器,则无法执行实例刷新;如果总共有 5 台服务器,则无法删除服务器)。
VMSS 中的所有虚拟机都应处于Running状态。
一次只能运行一个 Runbook。
如果您使用 Azure for US Government,则 InstanceRefresh、RemoveNodes 和 RemoveServers Runbook 会受到一个问题的影响,该问题会导致节点删除操作失败。
混合工作器
我们所有的存储帐户和 SQL Server 都有私有端点。 混合工作者组运行现有的自动化操作,以便它们正常工作。
混合工作器是位于 VNET 中的虚拟机,将在其上运行各种自动化。
虚拟机通常是Standard_D2s_v3或Standard_F2s_v2 ,具体取决于您为服务器虚拟机选择的类型以及配额是否允许。部署完成后,虚拟机将关闭,以最大限度地降低成本。
Runbook 分为两类:常规 Runbook 和混合 Runbook。 您可以使用常规 runbook 启动操作并收集所有数据。 然后,常规 Runbook 启动混合工作者虚拟机和混合 Runbook,后者完成操作。
操作完成后,您可以关闭混合工作者虚拟机以限制成本。
下表描述了 runbook 细分:
| 常规 runbook | 混合 runbook |
|---|---|
| AddGpuNode | HybridAddGpuNode |
| BackupCluster | HybridBackupCluster |
| GetAllBackups | HybridGetAllBackups |
| InstanceRefresh | HybridInstanceRefresh (+HybridCheckServerZoneRezilience) |
| RegisterAiCenterExternalOrchestrator | HybridRegisterAiCenterExternalOrchestrator |
| RemoveNodes | HybridRemoveNodes |
| RemoveServers | HybridRemoveServers |
| RestoreClusterInitialize | HybridRestoreClusterInitialize + HybridRestoreClusterSnapshot |
| ValidateFullInstall | 在部署结束时运行以验证完整安装。 |
InstanceRefresh
描述
The InstanceRefresh runbook has the following use cases:
- 更新服务器、代理和 GPU 规模集上的 VMSS 操作系统 SKU。
- 为一个/多个 VMSS 执行节点轮换操作。
- 预先应用于 VMSS 的其他 VMSS 配置更改。
用法
- Go to the Azure Portal and search for the resource called InstanceRefresh.
- 选择开始按钮以打开参数列表。 完成参数时,请考虑以下条件:
- 仅当参数
REFRESH<node_type>设置为True时,才会对 VMSS 执行节点轮换操作。 如果将多个REFRESH<node_type>参数设置为True,则 VMSS 节点轮换顺序将为服务器 -> 代理 -> GPU 代理。 - 您必须提供
NEWOSVERSION参数才能更新 VMSS 操作系统 SKU。 您可以使用az vm image list-skus --location <deployment_location> --offer RHEL --publisher RedHat --output table找到可用的 Azure 市场虚拟机映像 SKU。 当前的虚拟机不会自动更新为最新模型(为此需要执行节点轮换操作)。
- 仅当参数
选择“确定”按钮以启动 runbook。

实施细节
The InstanceRefresh runbook is a wrapper for the RemoveNodes runbook. As a result, the status is tracked while running RemoveNodes. It updates all the VMSS OS versions (if needed) and extracts, based on the received parameters, the hostname for the node rotation operation and forwards them to the RemoveNodes. If the cluster has exactly three servers, the InstanceRefresh runbook creates three new servers; otherwise, RemoveNodes handles the scale-up to maintain at least one server in each Availability Zone at all times.
RemoveNodes
描述
“删除节点”Runbook 具有以下用例:
- 从 Automation Suite 集群中删除指定节点。
- 为一个/两个虚拟机执行节点轮换操作。
用法
-
搜索要删除的节点的计算机名称。为此,请转到 VMSS,然后选择
Settings部分中的Instances。
-
Go to the Azure Portal and search for the resource called RemoveNodes.
-
选择开始按钮以打开参数列表。 完成参数时,请考虑以下因素:
NODESTOBEREMOVEDCOMPUTERNAME是以逗号分隔的要删除的虚拟机的计算机名称列表(例如pxlqw-agent-000009,pxlqw-agent-00000A),并且是唯一的必需参数。 我们建议一次从单个 VMSS 中删除节点。ISINSTANCEREFRESHandTHREESERVERSSCENARIOare flags populated by the InstanceRefresh wrapper.
选择“确定”按钮以启动 runbook。

实施细节
“删除节点” Runbook 使用递归方法来克服 3 小时超长超时。它从接收到的列表中删除或重新铺设前两个节点(选择数字以满足服务器奇数约束条件),并使用剩余的列表重新运行 Runbook 的另一个实例。
节点的节点重新铺设操作需要执行以下步骤:
- 根据要删除的节点数量,使用一个或两个虚拟机横向扩展 VMSS。
- 对旧实例执行节点删除。
节点的节点删除操作需要执行以下步骤:
- 封锁并排空实例。 对于代理,此操作将在 20 分钟后超时,对于服务器,此操作将在
number_of_instances * 60分钟后超时。 - 停止实例上的 rke 服务。 操作将在 5 分钟后超时。
- 从 Automation Suite 集群中删除节点并删除虚拟机。 对于代理,此操作将在 20 分钟后超时,对于服务器,此操作将在
number_of_instances * 60分钟后超时。
RemoveServers
描述
The RemoveServers runbook has the following use case:
- 从 Automation Suite 集群中删除服务器。
用法
- Go to the Azure Portal and search for the resource called RemoveServers.
- 选择开始按钮以打开参数列表。 完成参数时,请考虑以下因素:
-
REMOVEDSERVERSCOUNT是将要删除的服务器的数量。我们建议一次删除不超过 2 台服务器,以免遇到超长超时。
实施细节
The RemoveServers runbook removes the number of servers received as a parameter from the Availability Zones with the most VMs.
CheckServerZoneResilience
描述
The CheckServerZoneResilience runbook scales out the server VMSS and uses the RemoveServers runbook to balance the servers across Availability Zones. This is part of the InstanceRefresh flow and should not be run manually.
AddGpuNode
描述
在没有 GPU 节点的情况下创建初始部署的场景中,我们会创建虚拟机规模集,但要使用不同的 SKU,以防止出现区域/SKU 可用性问题。 此 Runbook 会将 SKU 更改为 GPU SKU,并添加一个节点。
如果初始部署是在没有 GPU 节点的情况下创建的,则请勿缩放在运行此 Runbook 之前创建的初始 GPU VMSS。
用法
要使用此 Runbook,请执行以下步骤:
- 导航到已部署 Automation Suite 的资源组,然后选择“自动化帐户” 。
- 选择“Runbook” ,然后选择“添加 GPU 节点” Runbook。
- 为您想要的 SKU 命名,然后选择“开始” 。
参数:
skuName - GPU 节点 VMSS 的 SKU。
支持以下值:
Standard_NC8as_T4_v3Standard_NC12s_v3Standard_NC24s_v3
RegisterAiCenterExternalOrchestrator
描述
Runbook 会将 AI Center 注册到部署时提供的外部 Orchestrator。
用法
该文档公开了一个必需参数IdentityToken ,这是由外部身份服务生成的安装访问令牌。由于令牌的可用性很短(大约 1-2 小时),我们建议在运行 Runbook 之前生成该令牌。有关说明,请参阅安装密钥。
BackupCluster
描述
The BackupCluster runbook helps you back up you cluster.
用法
-
导航到已部署 Automation Suite 的资源组,然后识别并选择自动化帐户。

-
选择“Runbook” ,然后选择“备份集群Runbook”。

-
为要创建的备份提供名称。

-
要启动 Automation Suite 集群的备份操作,请选择页面顶部的“开始”按钮。

-
当 Runbook 作业的状态为
Completed时,备份操作即告完成。 如果 Runbook 作业的状态为Failed,则可以查看存储帐户中的日志以获取更多信息。
GetAllBackups
描述
The GetAllBackups runbook helps you view a list of all available backups, both scheduled and manual.

还原集群初始化,还原快照
描述
这些 Runbook 可帮助您执行集群还原。
用法
开始还原过程时,我们将集群置于维护模式。 还原过程成功后,我们将集群退出维护模式。
要执行还原操作,请执行以下步骤:
-
Identify the restore files you want to use. To do this, navigate to your Automation Suite deployment Automation Account, and run the GetAllBackups runbook.


-
Runbook 作业完成后,请查看“输出” 选项卡底部的可用备份列表。 选择要在还原操作中使用的文件,然后复制。
-
Navigate back to the Automation Account and run the RestoreClusterInitialize runbook. For the parameter, paste the name of the previously copied backup file. At this point, the restore process is started.

-
The RestoreSnapshot job is started automatically. When the job is done, the restore process is complete.
备注:日志存在于存储帐户(以
st结尾)的备份容器中的restores/<backup-name>/文件夹下,其中backup-name是用于执行还原的备份的名称。 -
还原后,您应该确认集群处于良好状态(请参阅验证安装或任何 ArgoCD 故障排除链接)。之后,您可以选择在集群上启用备份,方法是使用与上一步中相同的参数运行“完成还原集群” Runbook。该操作将为集群启用备份。
故障排除
- 如果虚拟机无法加入 Automation Suite 集群,系统将尝试回滚。 新创建的虚拟机将遵循与通常的节点删除相同的步骤(封锁、排出、停止 rke 服务、从集群中删除节点以及删除虚拟机)。 您可以在存储帐户中的日志容器内的
infra-<hostname>.log等 Blob 中找到加入节点过程的日志。 - In case of a failure while deleting nodes, any runbook will stop and display the logs for the step that failed. Fix the issue, complete the process manually or using the RemoveNodes runbook. You can find all the logs in the storage account, inside the logs container, as follows:
- 封锁和排空-
<timestamp>-<runbook_abreviation>-drain_nodes.log - 停止 rke 服务 -
<timestamp>-<runbook_abreviation>-stop_rke.log - 从集群中删除节点 -
<timestamp>-<runbook_abreviation>-remove_nodes.log
- 封锁和排空-
- 如果发生超时,您应该等待步骤完成执行,检查日志,然后手动或使用删除节点Runbook 完成流程。所有 Runbook 都使用Azure 运行命令功能在虚拟机的上下文中执行代码。此方法的一个限制是它不返回执行状态。因此,封锁、排出和停止 rke 服务的步骤将异步运行,并且状态将使用以下格式的 Blob 保存:
<timestamp>-<runbook_abreviation>-<step_name>.<success/fail>。
- 验证安装
- 更新证书
- 启用 FIPS 140-2
- 探索标志和日志
- 标志容器
- 日志容器
- 访问部署输出
- 部署输出
- 访问集群虚拟机
- DNS 要求
- 访问集群管理门户
- 访问 Automation Suite 常规界面
- 访问主机管理
- 访问 ArgoCD
- 访问监控工具
- 扩展集群
- 完成升级
- Azure 虚拟机生命周期操作
- 混合工作器
- InstanceRefresh
- RemoveNodes
- RemoveServers
- CheckServerZoneResilience
- AddGpuNode
- RegisterAiCenterExternalOrchestrator
- BackupCluster
- GetAllBackups
- 还原集群初始化,还原快照
- 故障排除