- 概述
- 要求
- 推荐:部署模板
- 手动:准备安装
- 手动:准备安装
- 步骤 1:为离线安装配置符合 OCI 的注册表
- 步骤 2:配置外部对象存储
- 步骤 3:配置 High Availability Add-on
- 步骤 4:配置 Microsoft SQL Server
- 步骤 5:配置负载均衡器
- 步骤 6:配置 DNS
- 步骤 7:配置磁盘
- 步骤 8:配置内核和操作系统级别设置
- 步骤 9:配置节点端口
- 步骤 10:应用其他设置
- 步骤 12:验证并安装所需的 RPM 包
- 步骤 13:生成 cluster_config.json
- 证书配置
- 数据库配置
- 外部对象存储配置
- 预签名 URL 配置
- 符合 OCI 的外部注册表配置
- Disaster Recovery:主动/被动和主动/主动配置
- High Availability Add-on 配置
- 特定于 Orchestrator 的配置
- Insights 特定配置
- Process Mining 特定配置
- Document Understanding 特定配置
- Automation Suite Robot 特定配置
- 监控配置
- 可选:配置代理服务器
- 可选:在多节点 HA 就绪生产集群中启用区域故障恢复
- 可选:传递自定义 resolv.conf
- 可选:提高容错能力
- install-uipath.sh 参数
- 添加具有 GPU 支持的专用代理节点
- 为 Task Mining 添加专用代理节点
- 连接 Task Mining 应用程序
- 为 Automation Suite Robot 添加专用代理节点
- 步骤 15:为离线安装配置临时 Docker 注册表
- 步骤 16:验证安装的先决条件
- 手动:执行安装
- 安装后
- 集群管理
- 监控和警示
- 迁移和升级
- 特定于产品的配置
- 最佳实践和维护
- 故障排除
- 如何在安装过程中对服务进行故障排除
- 如何卸载集群
- 如何清理离线工件以改善磁盘空间
- 如何清除 Redis 数据
- 如何启用 Istio 日志记录
- 如何手动清理日志
- 如何清理存储在 sf-logs 存储桶中的旧日志
- 如何禁用 AI Center 的流日志
- 如何对失败的 Automation Suite 安装进行调试
- 如何在升级后从旧安装程序中删除映像
- 如何禁用 TX 校验和卸载
- 如何从 Automation Suite 2022.10.10 和 2022.4.11 升级到 2023.10.2
- 如何手动将 ArgoCD 日志级别设置为 Info
- 如何扩展 AI Center 存储
- 如何为外部注册表生成已编码的 pull_secret_value
- 如何解决 TLS 1.2 中的弱密码问题
- 单节点升级在结构阶段失败
- 从 2021.10 自动升级后,集群运行状况不佳
- 由于 Ceph 运行状况不佳,升级失败
- 由于空间问题,RKE2 未启动
- 卷无法装载,且仍处于附加/分离循环状态
- 由于 Orchestrator 数据库中的传统对象,升级失败
- 并行升级后,发现 Ceph 集群处于降级状态
- Insights 组件运行状况不佳导致迁移失败
- Apps 服务升级失败
- 就地升级超时
- Docker 注册表迁移卡在 PVC 删除阶段
- AI Center provisioning failure after upgrading to 2023.10 or later
- 在离线环境中升级失败
- 升级期间 SQL 验证失败
- 快照-控制器-crds Pod 在升级后处于 CrashLoopBackOff 状态
- Longhorn REST API 端点升级/重新安装错误
- 运行诊断工具
- Using the Automation Suite support bundle
- 探索日志
步骤 3:部署后步骤
\
拆分为多行的复制粘贴命令可能无法按预期运行。为确保正确解释新行,请使用控制台的剪贴板微件。
installResult
的文件(在容器中)的内容为 successful
,则安装完成。 如果安装失败,则内容将为 failed
。
安装流程会代表您生成自签名证书。这些证书符合 FIPS 140-2。您也可以通过 Azure 部署模板,选择在安装时提供由 CA 颁发的服务器证书,而不是使用自动生成的自签名证书。
自签名证书将在 90 天后过期,安装完成后,您必须将其替换为由受信任的 CA 签名的证书。如果不更新证书,安装将在 90 天后停止工作。
如果您在启用 FIPS 140-2 的主机上安装了 Automation Suite,并想要更新证书,请确保它们与 FIPS 140-2 兼容。
有关说明,请参阅管理证书。
使用 Azure 部署模板完成 Automation Suite 安装后,您可以在计算机上启用 FIPS 140-2。有关说明,请参阅安全性与合规性。
如果您需要有关 Automation Suite 安装流程或其他操作的更多信息,则可以从用于在集群部署和维护期间存储各种标志和日志的存储帐户入手。
若要找到存储帐户,请执行以下步骤:
标志 容器存储编排所需的各种标志或文件,或者仅用于报告各种操作的状态。 在新集群上, 标志 容器内容通常如以下示例所示:
标志 容器中的文件用于编排各种操作,例如集群上的 Automation Suite 安装流程,或特定集群操作,例如实例刷新。 例如:
uipath-server-000000.success
表示已在集群的该特定节点上成功完成基础架构安装;- 如果整体安装成功,则
installResult
将显示为success
。
安装完成后,您需要访问“输出”选项卡中的“部署输出”。
DateTime
)→“输出”。
输出 |
描述 |
---|---|
文档 |
文档链接。 |
URL |
负载均衡器 URL。可用于直接访问。 如果启用了自定义域,则此域将用于真实名称绑定。 |
密钥保险库 URL |
部署创建的密钥保险库的 Azure 门户 URL。它包含部署中使用的所有密码(凭据)。 |
ArgoCDURL |
用于访问 ArgoCD 的 URL。这在 VNet 中可用。必须按照步骤 4:配置 DNS 中的说明设置对此 URL 的外部访问。 |
ArgoCD 密码 |
用于登录 ArgoCD 门户的密码。 |
主机管理员用户名和主机管理员密码 |
用于主机管理员的凭据。 |
集群管理 URL |
集群管理门户的 URL。 |
DashboardMonitoringURL |
仪表板 (Grafana) 监控工具的 URL:
https://monitoring.<fqdn>/dashboard 。
确保将
<fqdn> 替换为您的 FQDN。
|
MetricsMonitoringURL |
指标 (Prometheus) 监控工具的 URL:
https://monitoring.<fqdn>/metrics 。
确保将
<fqdn> 替换为您的 FQDN。
|
AlertmanagerMonitoringURL |
Alertmanager 监控工具的 URL:
https://monitoring.<fqdn>/alertmanager 。
确保将
<fqdn> 替换为您的 FQDN。
|
部署中使用的所有凭据都作为密码存储在部署期间配置的密钥保险库中。要访问密码,请在“资源组”中筛选资源,搜索“保险库”,然后单击“密码”。
The operation “List” is not enabled in the key vault’s access policy
”警告,请执行以下步骤:
- 转到“访问策略”→“添加访问策略”→“配置模板”→“密码管理”→“选择主体”。
- 选择您的用户,然后单击“保存”。
- 导航回“密码”。警告应该消失,并且密码应该是可见的。
如步骤 1:准备 Azure 部署中所述,Automation Suite Azure 部署将创建一个具有公共 IP 和关联的 DNS 标签的负载均衡器。此 DNS 标签归 Microsoft 所有。
该部署还在集群 VNet 内配置了一个私有 DNS 区域,并添加了在安装和配置流程中使用的几个记录。
如果您选择从外部计算机连接,则无法使用私有 DNS 区域来解析各种服务的 DNS,因此您需要将这些记录添加到主机文件中。
有关更多详细信息,请参阅步骤 4:配置 DNS。
现在,您应该能够连接到集群上运行的各种服务。
集群管理门户是一个集中位置,您可以在此找到完成 Automation Suite 安装和执行常见的安装后操作所需的所有资源。有关详细信息,请参阅集群管理门户入门。
要访问“集群管理”门户,请执行以下步骤:
https://${CONFIG_CLUSTER_FQDN}/uipath-management
。通用的 Automation Suite 用户界面可用作组织管理员和组织用户的门户。它是常见的组织级别资源,每个人都可以从中访问 Automation Suite 的所有区域:管理页面、平台级别页面、特定于服务的页面和特定于用户的页面。
要访问 Automation Suite,请执行以下步骤:
- 转到以下 URL:
https://${Loadbalancer_dns}
,其中<loadbalancer_dns>
是负载均衡器的 DNS 标签,位于“输出”下。 - 切换到默认组织。
- 用户名是组织管理员。
- 依次转到“ 密钥保管库”、“密码”和“ 主机管理员密码”,以检索密码。
主机门户是系统管理员配置 Automation Suite 实例的地方。从该门户配置的设置将由您的所有组织继承,有些设置可以在组织级别覆盖。
要访问主机管理,请执行以下步骤:
- 转到以下 URL:
https://${Loadbalancer_dns}
,其中<loadbalancer_dns>
是负载均衡器的 DNS 标签,位于“输出”下。 - 切换到主机组织。
- 输入您先前指定的用户名作为 UiPath 管理员用户 名参数的值。
- 输入先前指定的密码作为“UiPath 管理员密码”参数的值。转到“密钥保险库”>“密码”>“主机管理员密码”,检索密码。
您可以使用 ArgoCD 控制台来管理已安装的产品。
要访问 ArgoCD,请执行以下步骤:
- 转到以下 URL:
https://alm.${Loadbalancer_dns}
,其中<loadbalancer_dns>
是负载均衡器的 DNS 标签,位于“输出”下。请注意,您必须按照步骤 4:配置 DNS 中的说明配置对此 URL 的外部访问。 - 用户名是管理员。
- 要访问密码,请转到“输出”选项卡或凭据密钥保险库。
首次访问监控工具时,请使用以下默认凭据以管理员身份登录:
- 用户名: admin
- 密码:要检索密码,请运行以下命令:
kubectl get secrets/dex-static-credential -n uipath -o "jsonpath={.data['password']}" | base64 -d
kubectl get secrets/dex-static-credential -n uipath -o "jsonpath={.data['password']}" | base64 -d
To update the default password used for Dex authentication while accessing the monitoring tools, take the following steps:
-
通过将
newpassword
替换为您的新密码来运行以下命令:password="newpassword" password=$(echo -n $password | base64) kubectl patch secret dex-static-credential -n uipath --type='json' -p="[{'op': 'replace', 'path': '/data/password', 'value': '$password'}]"
password="newpassword" password=$(echo -n $password | base64) kubectl patch secret dex-static-credential -n uipath --type='json' -p="[{'op': 'replace', 'path': '/data/password', 'value': '$password'}]" -
运行以下命令以更新密码:
./install-uipath.sh -i /opt/UiPathAutomationSuite/cluster_config.json -o ./output.json -f --accept-license-agreement
./install-uipath.sh -i /opt/UiPathAutomationSuite/cluster_config.json -o ./output.json -f --accept-license-agreement
从部署中配置的计算资源由 Azure 规模集组成,可轻松实现扩展。
您可以手动将其他资源添加到特定的规模集,包括添加服务器节点、代理节点或专用代理节点(例如 GPU 节点)。
您可以通过识别特定的规模集并直接添加资源来执行手动扩展。
为此,请执行以下步骤:
执行 Automation Suite 集群升级后,Azure 模板部署需要进行一些更改,以确保新节点正确加入集群。 要自动执行更改,我们建议使用专用脚本。 有关说明,请参阅 Azure 部署模板文档。
Azure 最多允许 15 分钟的窗口 准备关闭,而 Automation Suite 节点的正常终止从 20 分钟(对于代理和 GPU 代理节点)到几小时(对于服务器节点)不等。
仅多节点 HA 就绪生产部署支持“实例刷新”、“删除节点”、“移除服务器”和“检查服务器区域恢复能力”Runbook。
运行任何 Runbook 后的服务器数量必须为奇数,且必须大于三(例如,如果有 4 台服务器,则无法执行实例刷新;如果总共有 5 台服务器,则无法删除服务器)。
Running
状态。
一次只能运行一个 Runbook。
如果您使用 Azure for US Government,则 InstanceRefresh、RemoveNodes 和 RemoveServers Runbook 会受到一个问题的影响,该问题会导致节点删除操作失败。
我们所有的存储帐户和 SQL Server 都有私有端点。 混合工作者组运行现有的自动化操作,以便它们正常工作。
混合工作器是位于 VNET 中的虚拟机,将在其上运行各种自动化。
虚拟机通常是 Standard_D2s_v3 或 Standard_F2s_v2,具体取决于您为服务器虚拟机选择的虚拟机以及是否允许配额。 部署完成后,虚拟机将关闭,以最大程度地降低成本。
Runbook 分为两类:常规 Runbook 和混合 Runbook。 您可以使用常规 runbook 启动操作并收集所有数据。 然后,常规 Runbook 启动混合工作者虚拟机和混合 Runbook,后者完成操作。
操作完成后,您可以关闭混合工作者虚拟机以限制成本。
下表描述了 runbook 细分:
常规 runbook |
混合 runbook |
---|---|
AddGpuNode | HybridAddGpuNode |
BackupCluster | HybridBackupCluster |
GetAllBackups | HybridGetAllBackups |
InstanceRefresh | HybridInstanceRefresh (+HybridCheckServerZoneRezilience) |
RegisterAiCenterExternalOrchestrator | HybridRegisterAiCenterExternalOrchestrator |
RemoveNodes | HybridRemoveNodes |
RemoveServers | HybridRemoveServers |
RestoreClusterInitialize | HybridRestoreClusterInitialize + HybridRestoreClusterSnapshot |
ValidateFullInstall | 在部署结束时运行以验证完整安装。 |
描述
实例刷新 Runbook 具有以下用例:
- 更新服务器、代理和 GPU 规模集上的 VMSS 操作系统 SKU。
- 为一个/多个 VMSS 执行节点轮换操作。
- 预先应用于 VMSS 的其他 VMSS 配置更改。
用法
实施细节
“实例刷新”Runbook 是“删除节点”Runbook 的包装器。因此,系统会在运行“删除节点”时追踪状态。它会更新所有 VMSS 操作系统版本(如果需要),并根据收到的参数提取节点轮换操作的主机名,并将其转发到“删除节点”。如果集群正好有三台服务器,则“实例刷新”Runbook 将创建三台新服务器;否则,“删除节点”将处理纵向扩展,以始终在每个可用区中至少存在一台服务器。
描述
“删除节点”Runbook 具有以下用例:
- 从 Automation Suite 集群中删除指定节点。
- 为一个/两个虚拟机执行节点轮换操作。
用法
NODESTOBEREMOVEDCOMPUTERNAME
是以逗号分隔的要删除的虚拟机的计算机名称列表(例如pxlqw-agent-000009,pxlqw-agent-00000A
),并且是唯一的必需参数。 我们建议一次从单个 VMSS 中删除节点。-
ISINSTANCEREFRESH
和THREESERVERSSCENARIO
是由“实例刷新”包装器填充的标志。单击“确定”按钮以启动 Runbook。
实施细节
“删除节点”Runbook 使用递归方法来克服 3 小时超长超时。该 Runbook 从接收到的列表中删除或重新铺设前两个节点(选择数量是为了满足服务器的奇数限制),并使用剩余的列表重新运行 Runbook 的另一个实例。
节点的节点重新铺设操作需要执行以下步骤:
- 根据要删除的节点数量,使用一个或两个虚拟机横向扩展 VMSS。
- 对旧实例执行节点删除。
节点的节点删除操作需要执行以下步骤:
- 封锁并排空实例。 对于代理,此操作将在 20 分钟后超时,对于服务器,此操作将在
number_of_instances * 60
分钟后超时。 - 停止实例上的 rke 服务。 操作将在 5 分钟后超时。
- 从 Automation Suite 集群中删除节点并删除虚拟机。 对于代理,此操作将在 20 分钟后超时,对于服务器,此操作将在
number_of_instances * 60
分钟后超时。
描述
移除服务器 Runbook 具有以下用例:
- 从 Automation Suite 集群中删除服务器。
用法
- 转到 Azure 门户并搜索名为“移除服务器”的资源。
- 单击“开始” 按钮以打开参数列表。 请考虑以下因素,完成参数:
-
REMOVEDSERVERSCOUNT
是要删除的服务器数量。 我们建议一次删除的服务器不超过 2 台,以免达到 公平共享 超时。
实施细节
“删除服务器”Runbook 将从具有最多虚拟机的可用区中删除作为参数接收的服务器数量。
描述
“检查服务器区域恢复能力” Runbook 可扩展服务器 VMSS,并使用“移除服务器”Runbook 跨可用区平衡服务器。这是“实例刷新”流程的一部分,不应手动运行。
描述
在没有 GPU 节点的情况下创建初始部署的场景中,我们会创建虚拟机规模集,但要使用不同的 SKU,以防止出现区域/SKU 可用性问题。 此 Runbook 会将 SKU 更改为 GPU SKU,并添加一个节点。
用法
要使用此 Runbook,请执行以下步骤:
- 导航到已部署 Automation Suite 的资源组,然后识别并单击“自动化帐户”。
- 单击“Runbook”,然后单击“添加 GPU 节点 Runbook”。
- 为您想要的 SKU 命名,然后单击“开始”。
参数:
skuName
– GPU 节点 VMSS 的 SKU。
支持以下值:
Standard_NC8as_T4_v3
Standard_NC12s_v3
Standard_NC24s_v3
描述
Runbook 会将 AI Center 注册到部署时提供的外部 Orchestrator。
用法
IdentityToken
,这是由外部身份服务生成的安装访问令牌。由于令牌的可用时间很短(大约 1-2 小时),我们建议在运行 Runbook 之前生成该令牌。有关说明,请参阅安装密钥。
描述
这些 Runbook 可帮助您执行集群还原。
用法
要执行还原操作,请执行以下步骤:
- 如果虚拟机无法加入 Automation Suite 集群,系统将尝试回滚。 新创建的虚拟机将遵循与通常的节点删除相同的步骤(封锁、排出、停止 rke 服务、从集群中删除节点以及删除虚拟机)。 您可以在存储帐户中的 日志 容器内的
infra-<hostname>.log
等 Blob 中找到加入节点过程的日志。 -
如果删除节点时失败,任何 Runbook 都将停止并显示失败步骤的日志。要修复此问题,请手动或使用“删除节点”Runbook 完成该流程。您可以在“日志”容器内找到存储帐户中的所有日志,如下所示:
- 警戒线和排水管 –
<timestamp>-<runbook_abreviation>-drain_nodes.log
- 停止 rke 服务 –
<timestamp>-<runbook_abreviation>-stop_rke.log
- 从集群中删除节点 –
<timestamp>-<runbook_abreviation>-remove_nodes.log
- 警戒线和排水管 –
- 如果发生超时,您应该等待步骤完成执行,检查日志,然后手动或使用“删除节点”Runbook 完成流程。所有 Runbook 都使用 Azure 运行命令功能在虚拟机的上下文中执行代码。此方法的一个限制是它不返回执行状态。因此,封锁、排出和停止 rke 服务的步骤将异步运行,并且状态将使用以下格式的 Blob 保存:
<timestamp>-<runbook_abreviation>-<step_name>.<success/fail>
。