automation-suite
2021.10
false
- 概述
- 要求
- 安装
- 安装后
- 集群管理
- 监控和警示
- 迁移和升级
- 特定于产品的配置
- 最佳实践和维护
- 故障排除
重要 :
请注意此内容已使用机器翻译进行了部分本地化。
Automation Suite 安装指南
Last updated 2024年8月26日
GCP 部署架构
重要提示:GCP 部署模板当前仅适用于 Automation Suite 2023.10。因此,我们建议您参阅 Automation Suite 2023.10 文档。
此页面提供有关 GCP 部署架构、所需组件和所有已知限制的见解。
- 虚拟网络
- 所有节点所在的子网。
- 用于出站连接的 NAT 网关(附加到 Cloud 路由器的 Cloud Nat 资源);
- 用于保护子网流量的防火墙规则。
- 安装所需的 DNS 私有区域。有关更多详细信息,请查看已知限制一节。
- 3 个托管实例组。您可以为服务器、代理和 GPU 代理节点选择实例类型。请务必查看多节点 HA 就绪生产计算机要求和单节点评估计算机要求,以满足硬件要求。每个虚拟机都有一个 128 GiB 的操作系统和 256 GiB 的集群二进制文件和状态磁盘。服务器节点有额外的 512GiB/2048GiB 数据磁盘,具体取决于是否安装了 AI 产品。
- 服务器节点(集群控制平面)。服务器节点也运行工作负载。
- 代理节点。 设计为仅运行工作负载(它们没有控制平面服务)。 如果所需的代理节点数为 0,则会创建一个空的托管实例组。
- GPU 节点。 专门用于具有视频卡的 ML 模型的节点。 如果所需的 GPU 节点数为 0,则不会创建托管实例组。
- 用于平衡从端口
443
到节点的 HTTPS 流量的公共负载均衡器。 - 转发节点注册请求需要 2 个内部负载均衡器和一个托管实例组。虚拟机具有尽可能小的实例大小。
- 作为单独的虚拟机部署的 Task Mining 节点。其实例类型为 n2-standard-32。
- 用于访问其他节点的堡垒实例。它具有公共 IP 和启用的 SSH。
- SQL 数据库实例:
- 8 核和 32 GiB RAM
- 可手动扩展的 1000 GiB 磁盘大小
- 数据库由安装程序创建
- 密码管理器,用于存储为 SQL 服务器、Automation Suite 平台和 ArgoCD 控制台自动生成的凭据。
Dns
- 由于 DNS 无法自动附加到 LB:
- 配置 DNS 的步骤只能在安装后完成,而在安装过程中需要执行这些步骤。私有 DNS 区域解决了此问题,并且可以在安装完成后安全地将其删除。或者,出于测试目的,请查看步骤 4:配置 DNS。
- 必须强制核心 DNS 上游服务器匹配节点的名称服务器。这可能会导致虚拟机重新启动时 rke 配置文件(
/etc/rancher/rke2/config.yaml
)损坏,进而影响升级的安装后流程。
RHEL
- Google 可能会更新 RHEL 版本,恕不另行通知,从而使 Automation Suite 部署不受支持。 目前,使用自定义 RHEL 映像进行手动部署是获得支持的唯一方法。