- 概述
- 要求
- 安装
- 安装后
- 集群管理
- 监控和警示
- 迁移和升级
- 特定于产品的配置
- 最佳实践和维护
- 故障排除
- 无法获取沙盒映像
- Pod 未显示在 ArgoCD 用户界面中
- Redis 探测器失败
- RKE2 服务器无法启动
- 在 UiPath 命名空间中找不到密码
- 初始安装后,ArgoCD 应用程序进入“进行中”状态
- MongoDB Pod 处于 CrashLoopBackOff 状态或在删除后处于“等待 PVC 配置”状态
- 意外错误:不一致;手动运行 fsck
- 集群还原后 MongoDB 或业务应用程序降级
- 缺少 Self-heal-operator 和 Sf-k8-utils 存储库
- 集群还原或回滚后服务不正常
- RabbitMQ Pod 卡在 CrashLoopBackOff 中
- Prometheus 处于 CrashLoopBackoff 状态,并出现内存不足 (OOM) 错误
- 监控仪表板中缺少 Ceph-rook 指标
- 使用 Automation Suite 诊断工具
- 使用 Automation Suite 支持包工具
- 探索日志
步骤 3:部署后步骤
\
拆分为多行的复制粘贴命令可能无法按预期运行。为确保正确解释新行,请使用控制台的剪贴板微件。
installResult
的文件(在容器中)的内容为 successful
,则安装完成。 如果安装失败,则内容将为 failed
。
安装流程会代表您生成自签名证书。但是,您也可以通过 Azure 部署模板,选择在安装时提供由 CA 颁发的服务器证书,而不是使用自动生成的自签名证书。
自签名证书将在 90 天后过期,安装完成后,您必须将其替换为由受信任的 CA 签名的证书。如果不更新证书,安装将在 90 天后停止工作。
有关说明,请参阅管理证书。
如果您需要有关 Automation Suite 安装流程或其他操作的更多信息,则可以从用于在集群部署和维护期间存储各种标志和日志的存储帐户入手。
若要找到存储帐户,请执行以下步骤:
标志 容器存储编排所需的各种标志或文件,或者仅用于报告各种操作的状态。 在新集群上, 标志 容器内容通常如以下示例所示:
标志 容器中的文件用于编排各种操作,例如集群上的 Automation Suite 安装流程,或特定集群操作,例如实例刷新。 例如:
uipath-server-000000.success
表示已在集群的该特定节点上成功完成基础架构安装;- 如果整体安装成功,则
installResult
将显示为success
。
安装完成后,您需要访问“输出”选项卡中的“部署输出”。
DateTime
)→“输出”。
输出 |
描述 |
---|---|
文档 |
文档链接。 |
URL |
负载均衡器 URL。可用于直接访问。 如果启用了自定义域,则此域将用于真实名称绑定。 |
密钥保险库 URL |
部署创建的密钥保险库的 Azure 门户 URL。它包含部署中使用的所有密码(凭据)。 |
ArgoCDURL |
用于访问 ArgoCD 的 URL。这在 VNet 中可用。必须按照步骤 4:配置 DNS 中的说明设置对此 URL 的外部访问。 |
ArgoCD 密码 |
用于登录 ArgoCD 门户的密码。 |
主机管理员用户名和主机管理员密码 |
用于主机管理员的凭据。 |
部署中使用的所有凭据都作为密码存储在部署期间配置的密钥保险库中。要访问密码,请在“资源组”中筛选资源,搜索“保险库”,然后单击“密码”。
The operation “List” is not enabled in the key vault’s access policy
”警告,请执行以下步骤:
- 转到“访问策略”→“添加访问策略”→“配置模板”→“密码管理”→“选择主体”。
- 选择您的用户,然后单击“保存”。
- 导航回“密码”。警告应该消失,并且密码应该是可见的。
如步骤 1:准备 Azure 部署中所述,Automation Suite Azure 部署将创建一个具有公共 IP 和关联的 DNS 标签的负载均衡器。此 DNS 标签归 Microsoft 所有。
该部署还在集群 VNet 内配置了一个私有 DNS 区域,并添加了在安装和配置流程中使用的几个记录。
如果您选择从外部计算机连接,则无法使用私有 DNS 区域来解析各种服务的 DNS,因此您需要将这些记录添加到主机文件中。
有关更多详细信息,请参阅步骤 4:配置 DNS。
现在,您应该能够连接到集群上运行的各种服务。
通用的 Automation Suite 用户界面可用作组织管理员和组织用户的门户。它是常见的组织级别资源,每个人都可以从中访问 Automation Suite 的所有区域:管理页面、平台级别页面、特定于服务的页面和特定于用户的页面。
要访问 Automation Suite,请执行以下步骤:
- 转到以下 URL:
https://${Loadbalancer_dns}
,其中<loadbalancer_dns>
是负载均衡器的 DNS 标签,位于“输出”下。 - 切换到默认组织。
- 用户名是组织管理员。
- 依次转到“ 密钥保管库”、“密码”和“ 主机管理员密码”,以检索密码。
主机门户是系统管理员配置 Automation Suite 实例的地方。从该门户配置的设置将由您的所有组织继承,有些设置可以在组织级别覆盖。
有关主机管理员的更多信息,请参阅管理系统管理员。
有关主机门户的更多信息,请参阅界面演示。
要访问主机管理,请执行以下步骤:
- 转到以下 URL:
https://${Loadbalancer_dns}
,其中<loadbalancer_dns>
是负载均衡器的 DNS 标签,位于“输出”下。 - 切换到主机组织。
- 输入您先前指定的用户名作为 UiPath 管理员用户 名参数的值。
- 输入先前指定的密码作为“UiPath 管理员密码”参数的值。转到“密钥保险库”>“密码”>“主机管理员密码”,检索密码。
您可以使用 ArgoCD 控制台来管理已安装的产品。
要访问 ArgoCD,请执行以下步骤:
- 转到以下 URL:
https://alm.${Loadbalancer_dns}
,其中<loadbalancer_dns>
是负载均衡器的 DNS 标签,位于“输出”下。请注意,您必须按照步骤 4:配置 DNS 中的说明配置对此 URL 的外部访问。 - 用户名是管理员。
- 要访问密码,请转到“输出”选项卡或凭据密钥保险库。
Automation Suite 使用 Rancher 提供开箱即用的集群管理工具。这可帮助您管理集群以及访问监控和故障排除功能。
有关更多详细信息,请参阅 Rancher 文档。
有关如何在 Automation Suite 中使用 Rancher 监控的更多信息,请参阅使用监控堆栈。
要访问 Rancher 控制台,请执行以下步骤:
从部署中配置的计算资源由 Azure 规模集组成,可轻松实现扩展。
您可以手动将其他资源添加到特定的规模集,包括添加服务器节点、代理节点或专用代理节点(例如 GPU 节点)。
您可以通过识别特定的规模集并直接添加资源来执行手动扩展。
为此,请执行以下步骤:
Azure 在关闭前至多支持 15 分钟的准备时间,而 Automation Suite 节点的正常终止时间从 20 分钟(对于代理和 GPU 代理节点)到几小时(对于服务器节点)不等。
InstanceRefresh
、 RemoveNodes
、 RemoveServers
和CheckServerZoneResilience
。
运行任何 Runbook 后的服务器数量必须为奇数,且必须大于三(例如,如果有 4 台服务器,则无法执行实例刷新;如果总共有 5 台服务器,则无法删除服务器)。
Running
状态。
一次只能运行一个 Runbook。
描述
InstanceRefresh
Runbook 具有以下用例:
- 更新服务器、代理和 GPU 规模集上的 VMSS 操作系统 SKU。
- 为一个/多个 VMSS 执行节点轮换操作。
- 预先应用于 VMSS 的其他 VMSS 配置更改。
用法
实施细节
InstanceRefresh
Runbook 是RemoveNodes
Runbook 的包装程序。 因此,系统会在运行RemoveNodes
时跟踪状态。 它会更新所有 VMSS 操作系统版本(如果需要),并根据收到的参数提取节点轮换操作的主机名,并将其转发到RemoveNodes
。 如果集群恰好有三台服务器,则InstanceRefresh
Runbook 将创建三台新服务器;否则, RemoveNodes
将处理纵向扩展,以始终在每个可用区中至少维护一台服务器。
描述
RemoveNodes
Runbook 具有以下用例:
- 从 Automation Suite 集群中删除指定节点。
- 为一个/两个虚拟机执行节点轮换操作。
用法
实施详细信息
RemoveNodes
Runbook 使用递归方法来克服 3 小时超长超时。该 Runbook 从接收到的列表中删除或重新铺设前两个节点(选择数量是为了满足服务器的奇数限制),并使用剩余的列表重新运行 Runbook 的另一个实例。
节点的节点重新铺设操作需要执行以下步骤:
- 根据要删除的节点数量,使用一个或两个虚拟机横向扩展 VMSS。
- 对旧实例执行节点删除。
节点的节点删除操作需要执行以下步骤:
- 封锁并排空实例。 对于代理,此操作将在 20 分钟后超时,对于服务器,此操作将在
number_of_instances * 60
分钟后超时。 - 停止实例上的 rke 服务。 操作将在 5 分钟后超时。
- 从 Automation Suite 集群中删除节点并删除虚拟机。 对于代理,此操作将在 20 分钟后超时,对于服务器,此操作将在
number_of_instances * 60
分钟后超时。
描述
RemoveServers
Runbook 具有以下用例:
- 从 Automation Suite 集群中删除服务器。
用法
- 转到 Azure 门户并搜索名为
RemoveServers
的资源。 - 单击“开始” 按钮以打开参数列表。 请考虑以下因素,完成参数:
-
REMOVEDSERVERSCOUNT
是将要删除的服务器的数量。我们建议一次删除不超过 2 台服务器,以免遇到超长超时。
实施细节
RemoveServers
Runbook 将从具有最多虚拟机的可用区中删除作为参数接收的服务器数量。
描述
CheckServerZoneResilience
Runbook 可横向扩展服务器 VMSS,并使用RemoveServers
Runbook 跨可用区平衡服务器。 这是InstanceRefresh
流程的一部分,不应手动运行。
- 如果虚拟机无法加入 Automation Suite 集群,系统将尝试回滚。 新创建的虚拟机将遵循与通常的节点删除相同的步骤(封锁、排出、停止 rke 服务、从集群中删除节点以及删除虚拟机)。 您可以在存储帐户中的 日志 容器内的
infra-<hostname>.log
等 Blob 中找到加入节点过程的日志。 -
如果删除节点时失败,任何 Runbook 都将停止并显示失败步骤的日志。 修复此问题,手动或使用
RemoveNodes
Runbook 完成该流程。 您可以在 日志 容器内找到存储帐户中的所有日志,如下所示:- 警戒线和排水管 –
<timestamp>-<runbook_abreviation>-drain_nodes.log
- 停止 rke 服务 –
<timestamp>-<runbook_abreviation>-stop_rke.log
- 从集群中删除节点 –
<timestamp>-<runbook_abreviation>-remove_nodes.log
- 警戒线和排水管 –
- 如果发生超时,您应该等待步骤完成执行,检查日志,然后手动或使用
RemoveNodes
runbook 完成流程。所有 Runbook 都使用 Azure 运行命令功能在虚拟机的上下文中执行代码。此方法的一个限制是它不返回执行状态。因此,封锁、排出和停止 rke 服务的步骤将异步运行,并且系统将使用以下格式的 Blob 保存状态:<timestamp>-<runbook_abreviation>-<step_name>.<success/fail>
。