automation-suite
2023.4
false
- 概述
- 要求
- 安装
- 安装后
- 集群管理
- 监控和警示
- 迁移和升级
- 特定于产品的配置
- 最佳实践和维护
- 故障排除
Azure 部署架构
重要 :
请注意此内容已使用机器翻译进行了部分本地化。
Linux 版 Automation Suite 安装指南
Last updated 2024年9月5日
Azure 部署架构
本页提供有关 Azure 上的部署体系结构以及所需组件的见解。
- 用户分配的身份 (
Microsoft.ManagedIdentity/userAssignedIdentities
) – 在服务器虚拟机规模集上配置,并用于以下目的:- 允许服务器虚拟机规模集查询 VMSS 并识别将运行安装的第一台服务器;
- 验证是否满足订阅的硬件要求和配额;
- 在服务器节点上设置实例保护,以确保它们不会被意外删除。作为安装过程的一部分,我们将规模集操作中的实例保护添加到服务器规模集的所有节点。由于这些操作是从 Azure 执行的,因此无需服务器上下文,因此可以防止集群出现故障。有关规模集实例保护的更多信息,请参阅 Azure 文档。服务器节点还运行工作负载并具有专用的数据磁盘。
- 通过自动化帐户 Runbook 执行集群操作。
- 角色分配,参与者 (
Microsoft.Authorization/roleAssignments
) – 用于允许托管标识执行上述操作。 - 部署脚本 (
Microsoft.Resources/deploymentScripts
):- 在部署开始时执行,以验证所选配置(配额、可用性等);
- 由于某些任务是异步的,因此在部署结束时执行此操作以验证部署状态。
- 密钥保险库 (
Microsoft.KeyVault/vaults
) – 用于存储各种用户名和密码(例如:SQL 用户名和密码、ArgoCD 密码)。 - SQL Server (
Microsoft.Sql/servers
) – 用于创建 SQL 数据库的服务器。 - SQL 数据库 (
Microsoft.Sql/servers/databases
) – 每个已启用的服务所需的数据库。请注意,如果您选择在多节点 HA 就绪生产设置中安装 Process Mining,则需要一个独立于弹性池的名为AutomationSuite_ProcessMining_Warehouse
的数据库。这是因为,对于生产工作负载,此数据库比其他数据库对资源的需求要大得多。 - SQL 弹性池 (
Microsoft.Sql/servers/elasticPools
) – 用于保持低成本的弹性池。 - 虚拟机规模集 (
Microsoft.Compute/virtualMachineScaleSets
) – 集群的节点:- 一个用于服务器节点的规模集(集群控制层面)。作为安装过程的一部分,我们将规模集操作中的实例保护添加到服务器规模集的所有节点。由于这些操作是从 Azure 执行的,因此无需服务器上下文,因此可以防止集群出现故障。有关规模集实例保护的更多信息,请参阅 Azure 文档。服务器节点还运行工作负载并具有专用的数据磁盘。他们还分配了身份(用户分配的身份)。每个节点的磁盘:
- 256GiB 操作系统磁盘 (
Premium_LRS
) - 256GiB 二进制文件磁盘 (
Premium_LRS
) - 512GiB 或 2Tib 数据磁盘(基本或完整,
Premium_LRS
) - 16GiB
UltraSSD_LRS
(如果启用,否则使用Premium_LRS
)
- 256GiB 操作系统磁盘 (
- 一个规模集用于代理节点。 设计为仅运行工作负载(它们没有控制平面服务)。 如果所需的代理节点数为 0,则创建一个空的规模集。 每个节点的磁盘:
- 256GiB 操作系统磁盘 (
Premium_LRS
) - 256GiB 二进制文件磁盘 (
Premium_LRS
)
- 256GiB 操作系统磁盘 (
- GPU 节点。可选。专用于具有视频卡的 ML 模型的节点。如果所需的 GPU 节点数为 0,则创建规模集,但使用非 GPU 虚拟机系列 sku。每个节点的磁盘:
- 256GiB 操作系统磁盘 (
Premium_LRS
) - 256GiB 二进制文件磁盘 (
Premium_LRS
)
- 256GiB 操作系统磁盘 (
- Automation Suite Robot 节点。可选。专门用于 Automation Suite Robot 的节点。每个节点的磁盘:
- 256GiB 操作系统磁盘 (
Premium_LRS
) - 256GiB 二进制文件磁盘 (
Premium_LRS
) - 32GiB 缓存磁盘 (
Premium_LRS
)
- 256GiB 操作系统磁盘 (
- 虚拟机 (
Microsoft.Compute/virtualMachines
) – Task Mining 节点。 - 虚拟机扩展 (
Microsoft.Compute/virtualMachines/extensions
) – 用于安装 Automation Suite - 磁盘 (
Microsoft.Compute/disks
):- 256GiB 操作系统磁盘 (
Premium_LRS
) - 256GiB 二进制文件磁盘 (
Premium_LRS
)
- 256GiB 操作系统磁盘 (
- 网络接口 (
Microsoft.Network/networkInterfaces
)
- 一个用于服务器节点的规模集(集群控制层面)。作为安装过程的一部分,我们将规模集操作中的实例保护添加到服务器规模集的所有节点。由于这些操作是从 Azure 执行的,因此无需服务器上下文,因此可以防止集群出现故障。有关规模集实例保护的更多信息,请参阅 Azure 文档。服务器节点还运行工作负载并具有专用的数据磁盘。他们还分配了身份(用户分配的身份)。每个节点的磁盘:
- 自动化帐户 (
Microsoft.Automation/automationAccounts
) – 用于集群操作的自动化帐户。注意: 我们所有的存储帐户和 SQL Server 都有私有端点。 混合工作器组运行现有的自动化操作,以便它们正常工作。有关详细信息,请参阅 混合工作器。
InstanceRefresh
(Microsoft.Automation/automationAccounts/runbooks
) – 用于在 Automation Suite 集群上启动实例刷新操作的 Runbook。RemoveServers
(Microsoft.Automation/automationAccounts/runbooks
) – 从 Automation Suite 集群执行服务器删除的 Runbook。RemoveNodes
(Microsoft.Automation/automationAccounts/runbooks
) – 从 Automation Suite 集群执行特定节点删除的 Runbook。CheckServerZoneResilience
(Microsoft.Automation/automationAccounts/runbooks
) - 用于检查服务器区域恢复能力,并在需要时将节点分发到其他可用区的 Runbook。ImportASModules
(Microsoft.Automation/automationAccounts/runbooks
) - 用于导入 Automation Suite Runbook 所需的模块的 Runbook (Microsoft.Automation/automationAccounts/modules
)。AddGpuNode
– 用于将 GPU 节点添加到 Automation Suite 集群中的 GPU 规模集的 Runbook。RegisterAiCenterExternalOrchestrator
– 用于执行向外部 Orchestrator 和身份服务注册 AiCenter 安装的 Runbook。BackupCluster
– 在 Automation Suite 集群上执行实例刷新的 Runbook。GetAllBackups
– 在 Automation Suite 集群上执行实例刷新的 Runbook。RestoreClusterInitialize
– 在 Automation Suite 集群上执行基础架构还原的 Runbook。RestoreClusterSnapshot
– 用于在 Automation Suite 集群上执行快照还原的 Runbook。不要手动运行此程序。这将作为一系列 Runbook 的一部分运行以还原。
- 虚拟网络 (
Microsoft.Network/virtualNetworks
) – 用于部署节点虚拟机的虚拟网络。- 虚拟网络子网 (
Microsoft.Network/virtualNetworks/subnets
) – 所有节点所在的位置 - 虚拟网络子网 (
Microsoft.Network/virtualNetworks/subnets
) – 用于 Azure 堡垒(可选,在已启用 Azure 堡垒且您未选择现有虚拟网络时创建)
- 虚拟网络子网 (
- 公共负载均衡器 (
Microsoft.Network/loadBalancers
) – 用于平衡流向节点的流量443
– 到集群的 HTTPS 流量6443
– 到 Kubernetes API 的 HTTPS 流量
- 内部负载均衡器 (
Microsoft.Network/loadBalancers
) – 在安装期间用于节点注册。它有一个固定的 IP,并允许所有端口上的流量。 - 堡垒 (
Microsoft.Network/bastionHosts
) – 用作访问集群节点的跳转框。 可选. 如果您选择了现有的虚拟网络,则不会部署此网络。 - 网络安全组 (
Microsoft.Network/networkSecurityGroups
) – 用于保护子网流量。它允许HTTPS
(443) 和内部 VNet 连接。 - NAT (网络地址转换)网关 (
Microsoft.Network/natGateways
) – 用于安装期间的出站连接。 如果需要提供使用现有 VNet 出站连接,则不会进行部署。 - 公共 IP 地址 (
Microsoft.Network/publicIpAddresses
)- 一个用于 Azure 堡垒。 如果您选择了新的虚拟网络并且启用了 Azure 堡垒,则会部署此服务。
- 一个用于公共负载均衡器
- 一个用于 NAT 网关。 如果需要使用现有的 VNet 出站连接,则不会进行部署。
- 公共 IP 前缀 (
Microsoft.Network/publicIPPrefixes
) – 用于 NAT 网关。 如果需要提供使用现有 VNet 出站连接,则不会进行部署。 -
私有 DNS 区域 (
Microsoft.Network/privateDnsZones
) – 由于也可以在没有公共 DNS 区域的情况下使用此部署,因此将创建私有 DNS 区域。- 根据需要提供 DNS 记录
- 虚拟网络链接
- 存储帐户 (
Microsoft.Storage/storageAccounts
)- 一个用于安装业务流程和公开日志(以
st
结尾)。 - 一个由集群用于扩展存储(以
est
结尾) - 可选。如果已启用备份并将其用作 NFS 文件共享,则进行部署。
- 一个用于安装业务流程和公开日志(以