automation-suite
2022.4
false
- 概述
- 要求
- 安装
- 安装后
- 集群管理
- 监控和警示
- 迁移和升级
- 特定于产品的配置
- 最佳实践和维护
- 故障排除
- 无法获取沙盒映像
- Pod 未显示在 ArgoCD 用户界面中
- Redis 探测器失败
- RKE2 服务器无法启动
- 在 UiPath 命名空间中找不到密码
- 初始安装后,ArgoCD 应用程序进入“进行中”状态
- MongoDB Pod 处于 CrashLoopBackOff 状态或在删除后处于“等待 PVC 配置”状态
- 意外错误:不一致;手动运行 fsck
- 集群还原后 MongoDB 或业务应用程序降级
- 缺少 Self-heal-operator 和 Sf-k8-utils 存储库
- 集群还原或回滚后服务不正常
- RabbitMQ Pod 卡在 CrashLoopBackOff 中
- Prometheus 处于 CrashLoopBackoff 状态,并出现内存不足 (OOM) 错误
- 监控仪表板中缺少 Ceph-rook 指标
- Pod 无法在代理环境中与 FQDN 通信
- 使用 Automation Suite 诊断工具
- 使用 Automation Suite 支持捆绑包
- 探索日志
将 Longhorn 物理磁盘迁移到 LVM
重要 :
请注意此内容已使用机器翻译进行了部分本地化。
新发布内容的本地化可能需要 1-2 周的时间才能完成。
Automation Suite 安装指南
上次更新日期 2024年12月16日
将 Longhorn 物理磁盘迁移到 LVM
注意:此步骤是可选的,但强烈建议在升级 Automation Suite 时执行此步骤。
在 2021.10.0 版本中,您需要为块存储/数据磁盘引入物理磁盘。但是,对于物理磁盘,您可以创建的卷/PVC 的大小限制为基础磁盘的大小。此外,只能进行垂直调整。这就是 Longhorn 强烈建议使用 LVM 将所有数据磁盘聚合到单个分区的原因。如此可以在将来轻松扩展块存储 Longhorn | 最佳实践。
如果您为 Longhorn 分配了 2TiB 存储空间,并且您的存储要求较低,我们建议您迁移到 LVM。
- 您的集群应为多节点 HA 就绪生产集群,即集群应至少包含三个服务器节点。
- 确保在节点轮换时没有任何 AI 系列工作负载(AI Center、DU、TM)正在运行,否则这些工作负载将突然失败。
- 您必须将 Automation Suite 升级到 2021.10.1。
- 在将
cluster_config.json
下的集群设置为fixed_rke2_address
时,将使用 LB URL,而不是第一台计算机的硬编码 IP 或 FQDN。 - 配置三台将替换原始服务器节点的备用计算机。这些计算机的硬件配置应与现有服务器节点的硬件配置相同。计算机应置于相同的 VPC、子网、网络安全组等,并且附加的磁盘数量和大小也应相同。
- 确保计算机上的所有端口均可访问。有关详细信息,请参见配置计算机。
- 不要在新计算机上手动创建磁盘分区。请改为使用配置磁盘中记录的磁盘分区脚本。
- 确保计算机的主机名相同。例如,如果旧服务器名为
server0
、server1
和server2
,则也为新服务器节点提供相同的主机名。 - 将安装程序文件夹和
cluster_config.json
从现有的第一台服务器复制到所有三台新创建的计算机。 - 在继续服务器轮换之前,请从任何现有服务器运行此运行状况检查脚本。脚本不应引发任何错误,并应提示您以下消息:
All Deployments are Healthy
。
- 服务器节点应逐个轮换。请注意,节点轮换流程不适用于代理节点。
- 关闭旧的
server-N
节点,以便正常删除节点上运行的工作负载(N
是第 n 个服务器节点;例如server0
)。 -
通过运行以下命令从集群中删除服务器:
#where N is the nth server node Ex: server0 kubectl delete node server-N
#where N is the nth server node Ex: server0 kubectl delete node server-N - 从负载均衡器后端池中删除 server-N,即从服务器和节点池中删除。有关详细信息,请参阅配置负载均衡器。
- 在新的 server-N 节点上,安装 Kubernetes 并将新节点配置为服务器。有关详细信息,请参阅向集群添加新节点。
- Kubernetes 安装成功后,运行
kubectl get nodes
并验证新节点确实已加入原始集群。 - 从新添加的节点运行状况检查脚本,以监控集群的运行状况。脚本应显示以下消息:
All Deployments are Healthy
。 - 一旦运行状况检查脚本返回成功,请将新的服务器节点添加到负载均衡器下的服务器和节点池。有关详细信息,请参阅配置负载均衡器。
- 对其他服务器节点(即 server1、server2 和 server-N)重复节点轮换过程。
- 轮换完所有服务器节点后,您可以删除处于关闭状态的较旧服务器节点。