- 概述
- 要求
- 部署模板
- 手动:准备安装
- 手动:准备安装
- 步骤 2:为离线安装配置符合 OCI 的注册表
- 步骤 3:配置外部对象存储
- 步骤 4:配置 High Availability Add-on
- 步骤 5:配置 SQL 数据库
- 步骤 6:配置负载均衡器
- 步骤 7:配置 DNS
- 步骤 8:配置磁盘
- 步骤 9:配置内核和操作系统级别设置
- 步骤 10:配置节点端口
- 步骤 11:应用其他设置
- 步骤 12:验证并安装所需的 RPM 包
- 步骤 13:生成 cluster_config.json
- 证书配置
- 数据库配置
- 外部对象存储配置
- 预签名 URL 配置
- Kerberos 身份验证配置
- 符合 OCI 的外部注册表配置
- Disaster Recovery:主动/被动和主动/主动配置
- High Availability Add-on 配置
- 特定于 Orchestrator 的配置
- Insights 特定配置
- Process Mining 特定配置
- Document Understanding 特定配置
- Automation Suite Robot 特定配置
- 监控配置
- 可选:配置代理服务器
- 可选:在多节点 HA 就绪生产集群中启用区域故障恢复
- 可选:传递自定义 resolv.conf
- 可选:提高容错能力
- install-uipath.sh 参数
- 添加具有 GPU 支持的专用代理节点
- 为 Task Mining 添加专用代理节点
- 连接 Task Mining 应用程序
- 为 Automation Suite Robot 添加专用代理节点
- 步骤 15:为离线安装配置临时 Docker 注册表
- 步骤 16:验证安装的先决条件
- 手动:执行安装
- 安装后
- 集群管理
- 监控和警示
- 迁移和升级
- 特定于产品的配置
- 最佳实践和维护
- 故障排除
- 如何在安装过程中对服务进行故障排除
- 如何卸载集群
- 如何清理离线工件以改善磁盘空间
- 如何清除 Redis 数据
- 如何启用 Istio 日志记录
- 如何手动清理日志
- 如何清理存储在 sf-logs 存储桶中的旧日志
- 如何禁用 AI Center 的流日志
- 如何对失败的 Automation Suite 安装进行调试
- 如何在升级后从旧安装程序中删除映像
- 如何禁用 TX 校验和卸载
- 如何从 Automation Suite 2022.10.10 和 2022.4.11 升级到 2023.10.2
- 如何手动将 ArgoCD 日志级别设置为 Info
- 如何扩展 AI Center 存储
- 如何为外部注册表生成已编码的 pull_secret_value
- 如何解决 TLS 1.2 中的弱密码问题
- 如何使用证书
- 如何将应用程序日志转发到 Splunk
- 如何从注册表 Pod 中清理未使用的 Docker 映像
- 如何使用集群内对象存储 (Ceph) 收集 DU 使用情况数据
- 如何在离线环境中安装 RKE2 SELinux
- 升级 Automation Suite 后重新安装或升级 Insights 时丢失数据
- 单节点升级在结构阶段失败
- 从 2021.10 自动升级后,集群运行状况不佳
- 由于 Ceph 运行状况不佳,升级失败
- 由于空间问题,RKE2 未启动
- 卷无法装载,且仍处于附加/分离循环状态
- 由于 Orchestrator 数据库中的传统对象,升级失败
- 并行升级后,发现 Ceph 集群处于降级状态
- Insights 组件运行状况不佳导致迁移失败
- Apps 服务升级失败
- 就地升级超时
- Docker 注册表迁移卡在 PVC 删除阶段
- 升级到 2023.10 或更高版本后 AI Center 配置失败
- 在离线环境中升级失败
- 升级期间 SQL 验证失败
- 快照-控制器-crds Pod 在升级后处于 CrashLoopBackOff 状态
- Longhorn REST API 端点升级/重新安装错误
- 由于 Insights PVC 大小被覆盖,升级失败
- 使用 Process Mining 运行高可用性
- 使用 Kerberos 登录时 Process Mining 挖掘失败
- 在 Disaster Recovery 后,DAPR 无法正常用于 Process Mining
- 在集群模式下使用 Redis 配置 Dapr
- 无法使用 pyodbc 格式连接字符串连接到 AutomationSuite_ProcessMining_Warehouse 数据库
- Airflow 安装失败,并显示 sqlalchemy.exc.ArgumentError:无法从字符串“”中解析 rfc1738 URL
- 如何添加 IP 表格规则以使用 SQL Server 端口 1433
- 运行 CData Sync 的服务器不信任 Automation Suite 证书
- 运行诊断工具
- 使用 Automation Suite 支持捆绑包
- 探索日志
- 探索汇总遥测

Linux 版 Automation Suite 安装指南
部署需要访问 Azure 订阅和具有 RBAC 角色所有者的资源组。 需要“所有者” 角色才能创建用户分配的托管身份,并在“资源组” 作用域分配“参与者” 角色。 管理虚拟机(执行缩减和横向扩展操作、应用 实例保护、更新操作系统)需要托管标识。
您可以通过以下步骤检查角色分配:
资源组 → 访问控制 (IAM) → 检查访问权限 → 查看我的访问权限
该部署配置了许多 Standard_D(通用)、Standard_F 和/或 Standard_NC(使用 GPU)虚拟机。Azure 订阅对可为虚拟机系列配置的核心数量设有配额。
必须为一些已部署的虚拟机配置 Premium SSD,并根据配置配置 Ultra SSD。确保这些 SSD 可用,并且未被任何策略阻止。
我们使用 SQL 弹性池来部署数据库。确保 SQL 弹性池不会受到任何政策的阻止。
如要检查订阅配额,请转到 Azure 门户中的“使用情况 + 配额”。
作为安装过程的一部分,我们将规模集操作中的实例保护添加到服务器规模集的所有节点。由于这些操作是从 Azure 执行的,因此无需服务器上下文,因此可以防止集群出现故障。我们为集群管理操作提供 Runbook。有关规模集实例保护的更多信息,请参阅 Azure 文档。
我们为代理虚拟机实例提供实例终止支持。 这意味着,当代理虚拟机实例终止时,我们会从 Automation Suite 集群中封锁、排空和删除该节点。
我们在池中用于终止事件的 实例元数据服务 的每个代理虚拟机实例上运行脚本。 每当接收到事件时,我们都会在相应的节点上触发警戒线和排水命令,并且服务器还会针对该特定节点运行删除节点命令。
logs容器的部署主存储帐户下找到每个节点终止操作的日志。 每个日志文件都包含节点的名称,并具有-termination.log后缀。
确保虚拟机 SKU 在您部署的区域中可用。
您可以在以下位置查看可用性: 按区域列出的 Azure 产品。
.crt证书之前对其进行 Base64 编码。
.pfx certificate (server certificate). You can then use these strings when filling in the template parameters. You can run this bash script on a Windows machine using Windows Subsystem for Linux. It uses openssl to convert the certificates. Keep in mind that the server certificate (the .pfx) should meet somerequirements.
.pfx证书密码:
pfxFile=<path of the pfx file>
# Key
openssl pkcs12 -in $pfxFile -nocerts -out serverCertKeyEncrypted.key
openssl rsa -in serverCertKeyEncrypted.key -out serverCertKeyDecrypted.key
# Server cert
openssl pkcs12 -in $pfxFile -clcerts -nokeys -out serverCert.crt
# CA Bundle:
openssl pkcs12 -in $pfxFile -cacerts -nokeys -chain | sed -ne '/-BEGIN CERTIFICATE-/,/-END CERTIFICATE-/p' > caBundle.crt
# Converting to base64 and removing newlines
cat serverCertKeyDecrypted.key | base64 | tr -d '\n' > base64CertKey
cat serverCert.crt | base64 | tr -d '\n' > base64Cert
cat caBundle.crt | base64 | tr -d '\n' > base64CABundlepfxFile=<path of the pfx file>
# Key
openssl pkcs12 -in $pfxFile -nocerts -out serverCertKeyEncrypted.key
openssl rsa -in serverCertKeyEncrypted.key -out serverCertKeyDecrypted.key
# Server cert
openssl pkcs12 -in $pfxFile -clcerts -nokeys -out serverCert.crt
# CA Bundle:
openssl pkcs12 -in $pfxFile -cacerts -nokeys -chain | sed -ne '/-BEGIN CERTIFICATE-/,/-END CERTIFICATE-/p' > caBundle.crt
# Converting to base64 and removing newlines
cat serverCertKeyDecrypted.key | base64 | tr -d '\n' > base64CertKey
cat serverCert.crt | base64 | tr -d '\n' > base64Cert
cat caBundle.crt | base64 | tr -d '\n' > base64CABundleConnect AiCenter to an external Orchestrator to true and provide certificates for Orchestrator and Identity to the parameters listed in Deploying Automation Suite to Azure. For details on how to obtain the certificates, see Chain certificates.
要以 Base64 格式对证书进行编码,请运行以下命令:
cat orchestrator.cer | base64 | tr -d '\n' > orchestratorCert
cat identity.cer | base64 | tr -d '\n' > identityCertcat orchestrator.cer | base64 | tr -d '\n' > orchestratorCert
cat identity.cer | base64 | tr -d '\n' > identityCertTo register AI Center to the external Orchestrator, you must run the RegisterAiCenterExternalOrchestrator runbook.
默认情况下,模板会在尽可能多的 Azure 可用区中部署虚拟机,以在多节点 HA 就绪生产集群中实现区域故障的恢复。
并非所有 Azure 区域都支持可用性区域。有关详细信息,请参阅 Azure 地理位置。
虚拟机 SKU 具有其他可用性区域限制,您可以使用 CLI cmdlet 进行检查。有关详细信息,请参阅 Get-AzComputeResourceSku。
如果服务器分布在三个 Azure 可用性区域,则该集群可应对区域故障。如果 Azure 区域不支持为服务器选择的虚拟机类型的可用性区域,则部署将在没有区域故障恢复能力的情况下继续进行。
该模板为 Azure 负载均衡器配置公共 IP 和 DNS 标签以访问服务。
<dnsName>.<regionName>.cloudapp.azure.com。
Azure-provided 或 168.63.129.16。
如果要通过互联网访问集群,可以查看步骤 3:部署后步骤。
该模板允许您在现有虚拟网络中部署节点。但是,虚拟网络必须具有满足以下要求的子网:
- 有足够的可用地址空间来容纳所有节点和内部负载均衡器
- 出站连接,最好按照 Microsoft 建议通过NAT 网关进行配置
- 允许端口
443上的 HTTPS 流量 - 可选: 为
Microsoft.Storage配置了服务端点。 如果您在部署时启用备份,则需要这样做。
部署到现有虚拟网络时,您必须具有所有者 RBAC 角色,才能在其作用域内创建参与者角色分配。 横向扩展时,实例刷新操作需要执行此操作。
# of server nodes x 512GB) used as an NFS share and configuring the backup for the cluster. By default, the backup interval is set to 90 minutes, and the retention interval is 72 hours. You can change the backup and retention intervals post-deployment. For details, see BackupCluster.