automation-suite

2023.10

false

Linux 版 Automation Suite 安装指南

上次更新日期 2024年12月16日

步骤 1：准备 Azure 部署

重要提示：为防止数据丢失，请确保您使用的基础架构不会在集群重新启动或关闭时自动删除集群磁盘。如果启用了此功能，请确保将其禁用。

Azure 订阅和权限

部署需要访问 Azure 订阅和具有 RBAC 角色所有者的资源组。需要“所有者” 角色才能创建用户分配的托管身份，并在“资源组” 作用域分配“参与者” 角色。管理虚拟机（执行缩减和横向扩展操作、应用实例保护、更新操作系统）需要托管标识。

您可以通过以下步骤检查角色分配：

资源组 → 访问控制 (IAM) → 检查访问权限 → 查看我的访问权限

配额

该部署配置了许多 Standard_D（通用）、Standard_F 和/或 Standard_NC（使用 GPU）虚拟机。Azure 订阅对可为虚拟机系列配置的核心数量设有配额。

必须为一些已部署的虚拟机配置 Premium SSD，并根据配置配置 Ultra SSD。确保这些 SSD 可用，并且未被任何策略阻止。

我们使用 SQL 弹性池来部署数据库。确保 SQL 弹性池不会受到任何政策的阻止。

如要检查订阅配额，请转到 Azure 门户中的“使用情况 + 配额”。

注意：确保您的配额足够部署 Automation Suite，否则部署将失败。单击“请求增加”以增加。

实例保护

作为安装过程的一部分，我们将规模集操作中的实例保护添加到服务器规模集的所有节点。由于这些操作是从 Azure 执行的，因此无需服务器上下文，因此可以防止集群出现故障。我们为集群管理操作提供 Runbook。有关规模集实例保护的更多信息，请参阅 Azure 文档。

实例终止

重要提示：终止服务器虚拟机实例很可能会导致数据丢失并导致集群崩溃。不要尝试终止服务器虚拟机实例。

我们为代理虚拟机实例提供实例终止支持。这意味着，当代理虚拟机实例终止时，我们会从 Automation Suite 集群中封锁、排空和删除该节点。

我们在池中用于终止事件的实例元数据服务的每个代理虚拟机实例上运行脚本。每当接收到事件时，我们都会在相应的节点上触发警戒线和排水命令，并且服务器还会针对该特定节点运行删除节点命令。

此流程提供扩展日志。您可以在logs容器的部署主存储帐户下找到每个节点终止操作的日志。每个日志文件都包含节点的名称，并具有-termination.log后缀。

虚拟机系列区域可用性

确保虚拟机 SKU 在您部署的区域中可用。

您可以在以下位置查看可用性：按区域列出的 Azure 产品。

Cluster certificate configuration

Azure 模板允许您为部署期间指定的自定义域提供证书，这样您就无需在部署后手动执行该操作。但是，您需要确保在提供.crt证书之前对其进行 Base64 编码。

以下脚本会根据单个 .pfx 证书（服务器证书）生成 Base64 编码的字符串。然后，您可以在填写模板参数时使用这些字符串。您可以使用适用于 Linux 的 Windows 子系统在 Windows 计算机上运行此 bash 脚本。该脚本使用 openssl 转换证书。请记住，服务器证书 (.pfx) 应满足一些要求。

逐个运行以下命令，因为有些命令需要.pfx证书密码：

pfxFile=<path of the pfx file>

# Key
openssl pkcs12 -in $pfxFile -nocerts -out serverCertKeyEncrypted.key
openssl rsa -in serverCertKeyEncrypted.key -out serverCertKeyDecrypted.key

# Server cert
openssl pkcs12 -in $pfxFile -clcerts -nokeys -out serverCert.crt

# CA Bundle:
openssl pkcs12 -in $pfxFile  -cacerts -nokeys -chain | sed -ne '/-BEGIN CERTIFICATE-/,/-END CERTIFICATE-/p' > caBundle.crt

# Converting to base64 and removing newlines
cat serverCertKeyDecrypted.key | base64 | tr -d '\n' > base64CertKey
cat serverCert.crt | base64 | tr -d '\n' > base64Cert
cat caBundle.crt | base64 | tr -d '\n' > base64CABundlepfxFile=<path of the pfx file>

# Key
openssl pkcs12 -in $pfxFile -nocerts -out serverCertKeyEncrypted.key
openssl rsa -in serverCertKeyEncrypted.key -out serverCertKeyDecrypted.key

# Server cert
openssl pkcs12 -in $pfxFile -clcerts -nokeys -out serverCert.crt

# CA Bundle:
openssl pkcs12 -in $pfxFile  -cacerts -nokeys -chain | sed -ne '/-BEGIN CERTIFICATE-/,/-END CERTIFICATE-/p' > caBundle.crt

# Converting to base64 and removing newlines
cat serverCertKeyDecrypted.key | base64 | tr -d '\n' > base64CertKey
cat serverCert.crt | base64 | tr -d '\n' > base64Cert
cat caBundle.crt | base64 | tr -d '\n' > base64CABundle

External Orchestrator certificates

要将 AI Center 连接到外部 Orchestrator，您必须将 Connect AiCenter to an external Orchestrator 设置为 true，并将 Orchestrator 证书和身份证书提供给将 Automation Suite 部署到 Azure 中列出的参数。有关如何获取证书的详细信息，请参阅链式证书。

要以 Base64 格式对证书进行编码，请运行以下命令：

cat orchestrator.cer | base64 | tr -d '\n' > orchestratorCert
cat identity.cer | base64 | tr -d '\n' > identityCertcat orchestrator.cer | base64 | tr -d '\n' > orchestratorCert
cat identity.cer | base64 | tr -d '\n' > identityCert

要将 AI Center 注册到外部 Orchestrator，您必须运行“将 AI Center 注册到外部 Orchestrator”Runbook。

多节点 HA 就绪生产集群中的区域故障恢复能力

默认情况下，模板会在尽可能多的 Azure 可用区中部署虚拟机，以在多节点 HA 就绪生产集群中实现区域故障的恢复。

备注：

并非所有 Azure 区域都支持可用性区域。有关详细信息，请参阅 Azure 地理位置。

虚拟机 SKU 具有其他可用性区域限制，您可以使用 CLI cmdlet 进行检查。有关详细信息，请参阅 Get-AzComputeResourceSku。

如果服务器分布在三个 Azure 可用性区域，则该集群可应对区域故障。如果 Azure 区域不支持为服务器选择的虚拟机类型的可用性区域，则部署将在没有区域故障恢复能力的情况下继续进行。

Dns

该模板为 Azure 负载均衡器配置公共 IP 和 DNS 标签以访问服务。

DNS 标签归 Microsoft 所有，其格式应类似于：<dnsName>.<regionName>.cloudapp.azure.com。

我们还为集群虚拟机部署了一个私有 DNS 区域，以便能够解析多个子域。这是安装流程中所必需的。要从虚拟网络解析私有 DNS 区域中的记录，请确保将 DNS 服务器设置为 Azure-provided 或 168.63.129.16。

如果要通过互联网访问集群，可以查看步骤 3：部署后步骤。

部署到现有虚拟网络中

该模板允许您在现有虚拟网络中部署节点。但是，虚拟网络必须具有满足以下要求的子网：

有足够的可用地址空间来容纳所有节点和内部负载均衡器；
出站连接；最好根据 Microsoft 的建议通过 NAT 网关进行配置；
允许端口443上的 HTTPS 流量；
可选: 为 Microsoft.Storage配置了服务端点。如果您在部署时启用备份，则需要这样做。

部署到现有虚拟网络时，您必须具有所有者 RBAC 角色，才能在其作用域内创建参与者角色分配。横向扩展时，实例刷新操作需要执行此操作。

备份

该模板允许您在部署时启用备份。这意味着创建一个具有可变存储容量（取决于服务器节点数量 - # of server nodes x 512GiB）的 Microsoft 存储帐户，用作 NFS 共享，并为集群配置备份。默认情况下，备份间隔设置为 90 分钟，保留间隔设置为 72 小时。您可以在部署后更改备份和保留间隔。有关详细信息，请参阅集群备份。

在此页面上