- 概述
- 要求
- 推荐:部署模板
- 手动:准备安装
- 手动:准备安装
- 步骤 1:为离线安装配置符合 OCI 的注册表
- 步骤 2:配置外部对象存储
- 步骤 3:配置 High Availability Add-on
- 步骤 4:配置 Microsoft SQL Server
- 步骤 5:配置负载均衡器
- 步骤 6:配置 DNS
- 步骤 7:配置磁盘
- 步骤 8:配置内核和操作系统级别设置
- 步骤 9:配置节点端口
- 步骤 10:应用其他设置
- 步骤 12:验证并安装所需的 RPM 包
- 步骤 13:生成 cluster_config.json
- 证书配置
- 数据库配置
- 外部对象存储配置
- 预签名 URL 配置
- 符合 OCI 的外部注册表配置
- Disaster Recovery:主动/被动和主动/主动配置
- High Availability Add-on 配置
- 特定于 Orchestrator 的配置
- Insights 特定配置
- Process Mining 特定配置
- Document Understanding 特定配置
- Automation Suite Robot 特定配置
- 监控配置
- 可选:配置代理服务器
- 可选:在多节点 HA 就绪生产集群中启用区域故障恢复
- 可选:传递自定义 resolv.conf
- 可选:提高容错能力
- install-uipath.sh 参数
- 添加具有 GPU 支持的专用代理节点
- 为 Task Mining 添加专用代理节点
- 连接 Task Mining 应用程序
- 为 Automation Suite Robot 添加专用代理节点
- 步骤 15:为离线安装配置临时 Docker 注册表
- 步骤 16:验证安装的先决条件
- 手动:执行安装
- 安装后
- 集群管理
- 监控和警示
- 迁移和升级
- 特定于产品的配置
- 最佳实践和维护
- 故障排除
- 如何在安装过程中对服务进行故障排除
- 如何卸载集群
- 如何清理离线工件以改善磁盘空间
- 如何清除 Redis 数据
- 如何启用 Istio 日志记录
- 如何手动清理日志
- 如何清理存储在 sf-logs 存储桶中的旧日志
- 如何禁用 AI Center 的流日志
- 如何对失败的 Automation Suite 安装进行调试
- 如何在升级后从旧安装程序中删除映像
- 如何禁用 TX 校验和卸载
- 如何从 Automation Suite 2022.10.10 和 2022.4.11 升级到 2023.10.2
- 如何手动将 ArgoCD 日志级别设置为 Info
- 如何扩展 AI Center 存储
- 如何为外部注册表生成已编码的 pull_secret_value
- 如何解决 TLS 1.2 中的弱密码问题
- 单节点升级在结构阶段失败
- 从 2021.10 自动升级后,集群运行状况不佳
- 由于 Ceph 运行状况不佳,升级失败
- 由于空间问题,RKE2 未启动
- 卷无法装载,且仍处于附加/分离循环状态
- 由于 Orchestrator 数据库中的传统对象,升级失败
- 并行升级后,发现 Ceph 集群处于降级状态
- Insights 组件运行状况不佳导致迁移失败
- Apps 服务升级失败
- 就地升级超时
- Docker 注册表迁移卡在 PVC 删除阶段
- AI Center provisioning failure after upgrading to 2023.10 or later
- 在离线环境中升级失败
- 升级期间 SQL 验证失败
- 快照-控制器-crds Pod 在升级后处于 CrashLoopBackOff 状态
- Longhorn REST API 端点升级/重新安装错误
- 运行诊断工具
- Using the Automation Suite support bundle
- 探索日志
步骤 1:准备 Azure 部署
部署需要访问 Azure 订阅和具有 RBAC 角色所有者的资源组。 需要“所有者” 角色才能创建用户分配的托管身份,并在“资源组” 作用域分配“参与者” 角色。 管理虚拟机(执行缩减和横向扩展操作、应用 实例保护、更新操作系统)需要托管标识。
您可以通过以下步骤检查角色分配:
资源组 → 访问控制 (IAM) → 检查访问权限 → 查看我的访问权限
该部署配置了许多 Standard_D(通用)、Standard_F 和/或 Standard_NC(使用 GPU)虚拟机。Azure 订阅对可为虚拟机系列配置的核心数量设有配额。
必须为一些已部署的虚拟机配置 Premium SSD,并根据配置配置 Ultra SSD。确保这些 SSD 可用,并且未被任何策略阻止。
我们使用 SQL 弹性池来部署数据库。确保 SQL 弹性池不会受到任何政策的阻止。
如要检查订阅配额,请转到 Azure 门户中的“使用情况 + 配额”。
作为安装过程的一部分,我们将规模集操作中的实例保护添加到服务器规模集的所有节点。由于这些操作是从 Azure 执行的,因此无需服务器上下文,因此可以防止集群出现故障。我们为集群管理操作提供 Runbook。有关规模集实例保护的更多信息,请参阅 Azure 文档。
我们为代理虚拟机实例提供实例终止支持。 这意味着,当代理虚拟机实例终止时,我们会从 Automation Suite 集群中封锁、排空和删除该节点。
我们在池中用于终止事件的 实例元数据服务 的每个代理虚拟机实例上运行脚本。 每当接收到事件时,我们都会在相应的节点上触发警戒线和排水命令,并且服务器还会针对该特定节点运行删除节点命令。
logs
容器的部署主存储帐户下找到每个节点终止操作的日志。 每个日志文件都包含节点的名称,并具有-termination.log
后缀。
确保虚拟机 SKU 在您部署的区域中可用。
您可以在以下位置查看可用性: 按区域列出的 Azure 产品。
.crt
证书之前对其进行 Base64 编码。
.pfx
证书(服务器证书)生成 Base64 编码的字符串。然后,您可以在填写模板参数时使用这些字符串。您可以使用适用于 Linux 的 Windows 子系统在 Windows 计算机上运行此 bash 脚本。该脚本使用 openssl
转换证书。请记住,服务器证书 (.pfx
) 应满足一些要求。
.pfx
证书密码:
pfxFile=<path of the pfx file>
# Key
openssl pkcs12 -in $pfxFile -nocerts -out serverCertKeyEncrypted.key
openssl rsa -in serverCertKeyEncrypted.key -out serverCertKeyDecrypted.key
# Server cert
openssl pkcs12 -in $pfxFile -clcerts -nokeys -out serverCert.crt
# CA Bundle:
openssl pkcs12 -in $pfxFile -cacerts -nokeys -chain | sed -ne '/-BEGIN CERTIFICATE-/,/-END CERTIFICATE-/p' > caBundle.crt
# Converting to base64 and removing newlines
cat serverCertKeyDecrypted.key | base64 | tr -d '\n' > base64CertKey
cat serverCert.crt | base64 | tr -d '\n' > base64Cert
cat caBundle.crt | base64 | tr -d '\n' > base64CABundle
pfxFile=<path of the pfx file>
# Key
openssl pkcs12 -in $pfxFile -nocerts -out serverCertKeyEncrypted.key
openssl rsa -in serverCertKeyEncrypted.key -out serverCertKeyDecrypted.key
# Server cert
openssl pkcs12 -in $pfxFile -clcerts -nokeys -out serverCert.crt
# CA Bundle:
openssl pkcs12 -in $pfxFile -cacerts -nokeys -chain | sed -ne '/-BEGIN CERTIFICATE-/,/-END CERTIFICATE-/p' > caBundle.crt
# Converting to base64 and removing newlines
cat serverCertKeyDecrypted.key | base64 | tr -d '\n' > base64CertKey
cat serverCert.crt | base64 | tr -d '\n' > base64Cert
cat caBundle.crt | base64 | tr -d '\n' > base64CABundle
Connect AiCenter to an external Orchestrator
设置为 true
,并将 Orchestrator 证书和身份证书提供给将 Automation Suite 部署到 Azure 中列出的参数。有关如何获取证书的详细信息,请参阅链式证书。
要以 Base64 格式对证书进行编码,请运行以下命令:
cat orchestrator.cer | base64 | tr -d '\n' > orchestratorCert
cat identity.cer | base64 | tr -d '\n' > identityCert
cat orchestrator.cer | base64 | tr -d '\n' > orchestratorCert
cat identity.cer | base64 | tr -d '\n' > identityCert
要将 AI Center 注册到外部 Orchestrator,您必须运行“将 AI Center 注册到外部 Orchestrator”Runbook。
默认情况下,模板会在尽可能多的 Azure 可用区中部署虚拟机,以在多节点 HA 就绪生产集群中实现区域故障的恢复。
并非所有 Azure 区域都支持可用性区域。有关详细信息,请参阅 Azure 地理位置。
虚拟机 SKU 具有其他可用性区域限制,您可以使用 CLI cmdlet 进行检查。有关详细信息,请参阅 Get-AzComputeResourceSku。
如果服务器分布在三个 Azure 可用性区域,则该集群可应对区域故障。如果 Azure 区域不支持为服务器选择的虚拟机类型的可用性区域,则部署将在没有区域故障恢复能力的情况下继续进行。
该模板为 Azure 负载均衡器配置公共 IP 和 DNS 标签以访问服务。
<dnsName>.<regionName>.cloudapp.azure.com
。
Azure-provided
或 168.63.129.16
。
如果要通过互联网访问集群,可以查看步骤 3:部署后步骤。
该模板允许您在现有虚拟网络中部署节点。但是,虚拟网络必须具有满足以下要求的子网:
- 有足够的可用地址空间来容纳所有节点和内部负载均衡器;
- 出站连接;最好根据 Microsoft 的建议通过 NAT 网关 进行配置;
- 允许端口
443
上的 HTTPS 流量; - 可选: 为
Microsoft.Storage
配置了服务端点。 如果您在部署时启用备份,则需要这样做。
部署到现有虚拟网络时,您必须具有所有者 RBAC 角色,才能在其作用域内创建参与者角色分配。 横向扩展时,实例刷新操作需要执行此操作。
# of server nodes
x 512GiB)的 Microsoft 存储帐户,用作 NFS 共享,并为集群配置备份。默认情况下,备份间隔设置为 90 分钟,保留间隔设置为 72 小时。您可以在部署后更改备份和保留间隔。有关详细信息,请参阅集群备份。