Automation Suite
2022.4
False
- 概述
- 要求
- 安装
- 安装后
- 集群管理
- 监控和警示
- 迁移和升级
- 特定于产品的配置
- 最佳实践和维护
- 故障排除
- 无法获取沙盒映像
- Pod 未显示在 ArgoCD 用户界面中
- Redis 探测器失败
- RKE2 服务器无法启动
- 在 UiPath 命名空间中找不到密码
- 初始安装后,ArgoCD 应用程序进入“进行中”状态
- MongoDB Pod 处于 CrashLoopBackOff 状态或在删除后处于“等待 PVC 配置”状态
- 意外错误:不一致;手动运行 fsck
- 集群还原后 MongoDB 或业务应用程序降级
- 缺少 Self-heal-operator 和 Sf-k8-utils 存储库
- 集群还原或回滚后服务不正常
- RabbitMQ Pod 卡在 CrashLoopBackOff 中
- Prometheus 处于 CrashLoopBackoff 状态,并出现内存不足 (OOM) 错误
- 监控仪表板中缺少 Ceph-rook 指标
- 使用 Automation Suite 诊断工具
- 使用 Automation Suite 支持包工具
- 探索日志
Automation Suite 安装指南
上次更新日期 2024年4月24日
GCP 部署架构
重要提示:GCP 部署模板当前仅适用于 Automation Suite 2023.10。因此,我们建议您参阅 Automation Suite 2023.10 文档。
此页面提供有关 GCP 部署架构、所需组件和所有已知限制的见解。
-
虚拟网络
- 所有节点所在的子网。
- 用于出站连接的 NAT 网关(附加到 Cloud 路由器的 Cloud Nat 资源);
- 用于保护子网流量的防火墙规则。
- 安装所需的 DNS 私有区域。有关更多详细信息,请查看已知限制一节。
-
3 个托管实例组。您可以为服务器、代理和 GPU 代理节点选择实例类型。请务必查看多节点 HA 就绪生产计算机要求和单节点评估计算机要求,以满足硬件要求。每个虚拟机都有一个 128 GiB 的操作系统和 256 GiB 的集群二进制文件和状态磁盘。服务器节点有额外的 512GiB/2048GiB 数据磁盘,具体取决于是否安装了 AI 产品。
- 服务器节点(集群控制平面)。服务器节点也运行工作负载。
- 代理节点。 设计为仅运行工作负载(它们没有控制平面服务)。 如果所需的代理节点数为 0,则会创建一个空的托管实例组。
- GPU 节点。 专门用于具有视频卡的 ML 模型的节点。 如果所需的 GPU 节点数为 0,则不会创建托管实例组。
- 用于平衡从端口
443
到节点的 HTTPS 流量的公共负载均衡器。 - 转发节点注册请求需要 2 个内部负载均衡器和一个托管实例组。虚拟机具有尽可能小的实例大小。
- 作为单独的虚拟机部署的 Task Mining 节点。其实例类型为 n2-standard-32。
- 用于访问其他节点的堡垒实例。它具有公共 IP 和启用的 SSH。
-
SQL 数据库实例:
- 8 核和 32 GiB RAM
- 可手动扩展的 1000 GiB 磁盘大小
- 数据库由安装程序创建
- 密码管理器,用于存储为 SQL 服务器、Automation Suite 平台和 ArgoCD 控制台自动生成的凭据。
Dns
- 由于 DNS 无法自动附加到 LB:
- 配置 DNS 的步骤只能在安装后完成,而在安装过程中需要执行这些步骤。私有 DNS 区域解决了此问题,并且可以在安装完成后安全地将其删除。或者,出于测试目的,请查看步骤 4:配置 DNS。
- 必须强制核心 DNS 上游服务器匹配节点的名称服务器。这可能会导致虚拟机重新启动时 rke 配置文件(
/etc/rancher/rke2/config.yaml
)损坏,进而影响升级的安装后流程。
RHEL
- Google 可能会更新 RHEL 版本,恕不另行通知,从而使 Automation Suite 部署不受支持。 目前,使用自定义 RHEL 映像进行手动部署是获得支持的唯一方法。