automation-suite
2023.4
false
- 概述
- 要求
- 安装
- 安装后
- 集群管理
- 监控和警示
- 迁移和升级
- 特定于产品的配置
- 最佳实践和维护
- 故障排除
重要 :
请注意此内容已使用机器翻译进行了部分本地化。
新发布内容的本地化可能需要 1-2 周的时间才能完成。
Linux 版 Automation Suite 安装指南
上次更新日期 2024年12月19日
从集群中删除节点
安装 Automation Suite 后,您可以从集群中删除任何节点,以进行计算机维护或释放未使用的资源。您可以从集群中删除服务器、代理、Task Mining 和 GPU 节点。
重要提示:
只有在多节点 HA 就绪生产设置中才能从集群中删除节点。
从集群中删除节点不会导致任何停机。但是,如果未配置 HAA,它仍会影响内部缓存组件。
删除 Task Mining 或 GPU 节点时,不会等待已计划的作业,例如训练管道或分析。如果在删除节点的流程中删除了这些作业,则需要重新开始。确保计划删除的节点上没有运行任何流程。
执行以下步骤只会从集群中删除节点。计算机不会完全擦除,一些残留物可能会使其无法用于进一步的安装。
确保按照配置计算机中的说明格式化计算机,并做好安装或将其添加到现有集群的准备。
要成功从集群中删除节点,您必须满足以下要求:
- 生成的集群的容量必须与运行计划的工作负载(删除节点前)所需的总容量相匹配。例如,如果总工作负载需要 32 个 vCPU 和 64 GiB 内存,则删除节点后,集群中的其余节点应至少具有相同数量的资源。否则,您将无法删除节点。
- 生成的集群必须至少具有 3 个服务器节点;并且需要奇数个服务器节点。
- 如果设置为多区域,则生成的集群必须在 3 个区域中的每个区域中都有服务器节点。
- 集群必须处于正常运行状态,即所有节点或 Pod 都处于正常运行状态。当 Pod 处于以下任何状态时,它们的运行状况不佳:
Pending
、Error
、Init
、Crashloopbackoff
、Terminating
。 - 除非有其他相应的 Task Mining 和 GPU 节点可用,否则您无法删除 Task Mining 和 GPU 节点。
要从集群中删除节点,请执行以下步骤:
重要提示:
该脚本会警告您关闭或终止节点;在您关闭节点之前,它不会从集群中删除该节点。 该脚本将等待 5 分钟,以便在超时之前关闭节点。 该脚本提供有关要关闭的节点和关闭顺序的说明。 如果您未在请求的时间内关闭节点,也可以重新运行脚本。
要自动化整个节点删除流程,请执行以下步骤:
- 在步骤 3 中的脚本末尾添加
--skip-node-deletion
标志。 - 脚本运行成功后,关闭第一个目标节点,然后重新运行脚本,这次不运行
--skip-node-deletion
。 如果您没有按照提供给脚本的顺序关闭节点,则会失败。 关闭预期的节点后,您始终可以重新运行脚本。 - 重复上一步,直到成功删除所有节点。
要获取要删除的节点的名称,请参阅如何获取节点名称。
注意:删除服务器节点最多可能需要几个小时,具体取决于集群中存储的数据总量。删除代理节点(包括 Task Mining 和 GPU 节点)最多可能需要 20 分钟。