automation-suite
2023.10
false
- 概述
- 要求
- 推荐:部署模板
- 手动:准备安装
- 手动:准备安装
- 步骤 1:为离线安装配置符合 OCI 的注册表
- 步骤 2:配置外部对象存储
- 步骤 3:配置 High Availability Add-on
- 步骤 4:配置 Microsoft SQL Server
- 步骤 5:配置负载均衡器
- 步骤 6:配置 DNS
- 步骤 7:配置磁盘
- 步骤 8:配置内核和操作系统级别设置
- 步骤 9:配置节点端口
- 步骤 10:应用其他设置
- 步骤 12:验证并安装所需的 RPM 包
- 步骤 13:生成 cluster_config.json
- 证书配置
- 数据库配置
- 外部对象存储配置
- 预签名 URL 配置
- 符合 OCI 的外部注册表配置
- Disaster Recovery:主动/被动和主动/主动配置
- High Availability Add-on 配置
- 特定于 Orchestrator 的配置
- Insights 特定配置
- Process Mining 特定配置
- Document Understanding 特定配置
- Automation Suite Robot 特定配置
- 监控配置
- 可选:配置代理服务器
- 可选:在多节点 HA 就绪生产集群中启用区域故障恢复
- 可选:传递自定义 resolv.conf
- 可选:提高容错能力
- install-uipath.sh 参数
- 添加具有 GPU 支持的专用代理节点
- 为 Task Mining 添加专用代理节点
- 连接 Task Mining 应用程序
- 为 Automation Suite Robot 添加专用代理节点
- 步骤 15:为离线安装配置临时 Docker 注册表
- 步骤 16:验证安装的先决条件
- 手动:执行安装
- 安装后
- 集群管理
- 监控和警示
- 迁移和升级
- 特定于产品的配置
- 最佳实践和维护
- 故障排除
- 如何在安装过程中对服务进行故障排除
- 如何卸载集群
- 如何清理离线工件以改善磁盘空间
- 如何清除 Redis 数据
- 如何启用 Istio 日志记录
- 如何手动清理日志
- 如何清理存储在 sf-logs 存储桶中的旧日志
- 如何禁用 AI Center 的流日志
- 如何对失败的 Automation Suite 安装进行调试
- 如何在升级后从旧安装程序中删除映像
- 如何禁用 TX 校验和卸载
- 如何从 Automation Suite 2022.10.10 和 2022.4.11 升级到 2023.10.2
- 如何手动将 ArgoCD 日志级别设置为 Info
- 如何扩展 AI Center 存储
- 如何为外部注册表生成已编码的 pull_secret_value
- 如何解决 TLS 1.2 中的弱密码问题
- 单节点升级在结构阶段失败
- 从 2021.10 自动升级后,集群运行状况不佳
- 由于 Ceph 运行状况不佳,升级失败
- 由于空间问题,RKE2 未启动
- 卷无法装载,且仍处于附加/分离循环状态
- 由于 Orchestrator 数据库中的传统对象,升级失败
- 并行升级后,发现 Ceph 集群处于降级状态
- Insights 组件运行状况不佳导致迁移失败
- Apps 服务升级失败
- 就地升级超时
- Docker 注册表迁移卡在 PVC 删除阶段
- 升级到 2023.10 或更高版本后 AI Center 配置失败
- 在离线环境中升级失败
- 升级期间 SQL 验证失败
- 快照-控制器-crds Pod 在升级后处于 CrashLoopBackOff 状态
- Longhorn REST API 端点升级/重新安装错误
- 运行诊断工具
- 使用 Automation Suite 支持捆绑包
- 探索日志
Linux 版 Automation Suite 安装指南
Last updated 2024年12月3日
Azure 部署架构
本页提供有关 Azure 上的部署体系结构以及所需组件的见解。
- 用户分配的身份 (
Microsoft.ManagedIdentity/userAssignedIdentities
) – 在服务器虚拟机规模集上配置,并用于以下目的:- 允许服务器虚拟机规模集查询 VMSS 并识别将运行安装的第一台服务器;
- 验证是否满足订阅的硬件要求和配额;
- 在服务器节点上设置实例保护,以确保它们不会被意外删除。作为安装过程的一部分,我们将规模集操作中的实例保护添加到服务器规模集的所有节点。由于这些操作是从 Azure 执行的,因此无需服务器上下文,因此可以防止集群出现故障。有关规模集实例保护的更多信息,请参阅 Azure 文档。服务器节点还运行工作负载并具有专用的数据磁盘。
- 通过自动化帐户 Runbook 执行集群操作。
- 角色分配,参与者 (
Microsoft.Authorization/roleAssignments
) – 用于允许托管标识执行上述操作。 - 部署脚本 (
Microsoft.Resources/deploymentScripts
):- 在部署开始时执行,以验证所选配置(配额、可用性等);
- 由于某些任务是异步的,因此在部署结束时执行此操作以验证部署状态。
- 密钥保险库 (
Microsoft.KeyVault/vaults
) – 用于存储各种用户名和密码(例如:SQL 用户名和密码、ArgoCD 密码)。 - SQL Server (
Microsoft.Sql/servers
) – 用于创建 SQL 数据库的服务器。 - SQL 数据库 (
Microsoft.Sql/servers/databases
) – 每个已启用的服务所需的数据库。请注意,如果您选择在多节点 HA 就绪生产设置中安装 Process Mining,则需要一个独立于弹性池的名为AutomationSuite_ProcessMining_Warehouse
的数据库。这是因为,对于生产工作负载,此数据库比其他数据库对资源的需求要大得多。 - SQL 弹性池 (
Microsoft.Sql/servers/elasticPools
) – 用于保持低成本的弹性池。 - 虚拟机规模集 (
Microsoft.Compute/virtualMachineScaleSets
) – 集群的节点:- 一个用于服务器节点的规模集(集群控制层面)。作为安装过程的一部分,我们将规模集操作中的实例保护添加到服务器规模集的所有节点。由于这些操作是从 Azure 执行的,因此无需服务器上下文,因此可以防止集群出现故障。有关规模集实例保护的更多信息,请参阅 Azure 文档。服务器节点还运行工作负载并具有专用的数据磁盘。他们还分配了身份(用户分配的身份)。每个节点的磁盘:
- 256GiB 操作系统磁盘 (
Premium_LRS
) - 256GiB 二进制文件磁盘 (
Premium_LRS
) - 512GiB 或 2Tib 数据磁盘(基本或完整,
Premium_LRS
) - 16GiB
UltraSSD_LRS
(如果启用,否则使用Premium_LRS
)
- 256GiB 操作系统磁盘 (
- 一个规模集用于代理节点。 设计为仅运行工作负载(它们没有控制平面服务)。 如果所需的代理节点数为 0,则创建一个空的规模集。 每个节点的磁盘:
- 256GiB 操作系统磁盘 (
Premium_LRS
) - 256GiB 二进制文件磁盘 (
Premium_LRS
)
- 256GiB 操作系统磁盘 (
- GPU 节点。可选。专用于具有视频卡的 ML 模型的节点。如果所需的 GPU 节点数为 0,则创建规模集,但使用非 GPU 虚拟机系列 sku。每个节点的磁盘:
- 256GiB 操作系统磁盘 (
Premium_LRS
) - 256GiB 二进制文件磁盘 (
Premium_LRS
)
- 256GiB 操作系统磁盘 (
- Automation Suite Robot 节点。可选。专门用于 Automation Suite Robot 的节点。每个节点的磁盘:
- 256GiB 操作系统磁盘 (
Premium_LRS
) - 256GiB 二进制文件磁盘 (
Premium_LRS
) - 32GiB 缓存磁盘 (
Premium_LRS
)
- 256GiB 操作系统磁盘 (
- 虚拟机 (
Microsoft.Compute/virtualMachines
) – Task Mining 节点。 - 虚拟机扩展 (
Microsoft.Compute/virtualMachines/extensions
) – 用于安装 Automation Suite - 磁盘 (
Microsoft.Compute/disks
):- 256GiB 操作系统磁盘 (
Premium_LRS
) - 256GiB 二进制文件磁盘 (
Premium_LRS
)
- 256GiB 操作系统磁盘 (
- 网络接口 (
Microsoft.Network/networkInterfaces
)
- 一个用于服务器节点的规模集(集群控制层面)。作为安装过程的一部分,我们将规模集操作中的实例保护添加到服务器规模集的所有节点。由于这些操作是从 Azure 执行的,因此无需服务器上下文,因此可以防止集群出现故障。有关规模集实例保护的更多信息,请参阅 Azure 文档。服务器节点还运行工作负载并具有专用的数据磁盘。他们还分配了身份(用户分配的身份)。每个节点的磁盘:
- 自动化帐户 (
Microsoft.Automation/automationAccounts
) – 用于集群操作的自动化帐户。注意: 我们所有的存储帐户和 SQL Server 都有私有端点。 混合工作器组运行现有的自动化操作,以便它们正常工作。有关详细信息,请参阅 混合工作器。
InstanceRefresh
(Microsoft.Automation/automationAccounts/runbooks
) – 用于在 Automation Suite 集群上启动实例刷新操作的 Runbook。RemoveServers
(Microsoft.Automation/automationAccounts/runbooks
) – 从 Automation Suite 集群执行服务器删除的 Runbook。RemoveNodes
(Microsoft.Automation/automationAccounts/runbooks
) – 从 Automation Suite 集群执行特定节点删除的 Runbook。CheckServerZoneResilience
(Microsoft.Automation/automationAccounts/runbooks
) - 用于检查服务器区域恢复能力,并在需要时将节点分发到其他可用区的 Runbook。ImportASModules
(Microsoft.Automation/automationAccounts/runbooks
) - 用于导入 Automation Suite Runbook 所需的模块的 Runbook (Microsoft.Automation/automationAccounts/modules
)。AddGpuNode
– 用于将 GPU 节点添加到 Automation Suite 集群中的 GPU 规模集的 Runbook。RegisterAiCenterExternalOrchestrator
– 用于执行向外部 Orchestrator 和身份服务注册 AiCenter 安装的 Runbook。BackupCluster
– 在 Automation Suite 集群上执行实例刷新的 Runbook。GetAllBackups
– 在 Automation Suite 集群上执行实例刷新的 Runbook。RestoreClusterInitialize
– 在 Automation Suite 集群上执行基础架构还原的 Runbook。RestoreClusterSnapshot
– 用于在 Automation Suite 集群上执行快照还原的 Runbook。不要手动运行此程序。这将作为一系列 Runbook 的一部分运行以还原。
- 虚拟网络 (
Microsoft.Network/virtualNetworks
) – 用于部署节点虚拟机的虚拟网络。- 虚拟网络子网 (
Microsoft.Network/virtualNetworks/subnets
) – 所有节点所在的位置 - 虚拟网络子网 (
Microsoft.Network/virtualNetworks/subnets
) – 用于 Azure 堡垒(可选,在已启用 Azure 堡垒且您未选择现有虚拟网络时创建)
- 虚拟网络子网 (
- 公共负载均衡器 (
Microsoft.Network/loadBalancers
) – 用于平衡流向节点的流量443
– 到集群的 HTTPS 流量6443
– 到 Kubernetes API 的 HTTPS 流量
- 内部负载均衡器 (
Microsoft.Network/loadBalancers
) – 在安装期间用于节点注册。它有一个固定的 IP,并允许所有端口上的流量。 - 堡垒 (
Microsoft.Network/bastionHosts
) – 用作访问集群节点的跳转框。 可选. 如果您选择了现有的虚拟网络,则不会部署此网络。 - 网络安全组 (
Microsoft.Network/networkSecurityGroups
) – 用于保护子网流量。它允许HTTPS
(443) 和内部 VNet 连接。 - NAT (网络地址转换)网关 (
Microsoft.Network/natGateways
) – 用于安装期间的出站连接。 如果需要提供使用现有 VNet 出站连接,则不会进行部署。 - 公共 IP 地址 (
Microsoft.Network/publicIpAddresses
)- 一个用于 Azure 堡垒。 如果您选择了新的虚拟网络并且启用了 Azure 堡垒,则会部署此服务。
- 一个用于公共负载均衡器
- 一个用于 NAT 网关。 如果需要使用现有的 VNet 出站连接,则不会进行部署。
- 公共 IP 前缀 (
Microsoft.Network/publicIPPrefixes
) – 用于 NAT 网关。 如果需要提供使用现有 VNet 出站连接,则不会进行部署。 -
私有 DNS 区域 (
Microsoft.Network/privateDnsZones
) – 由于也可以在没有公共 DNS 区域的情况下使用此部署,因此将创建私有 DNS 区域。- 根据需要提供 DNS 记录
- 虚拟网络链接
- 存储帐户 (
Microsoft.Storage/storageAccounts
)- 一个用于安装业务流程和公开日志(以
st
结尾)。 - 一个由集群用于扩展存储(以
est
结尾) - 可选。如果已启用备份并将其用作 NFS 文件共享,则进行部署。
- 一个用于安装业务流程和公开日志(以