Automation Suite
2022.4
False
- 概述
- 要求
- 安装
- 安装后
- 集群管理
- 监控和警示
- 迁移和升级
- 特定于产品的配置
- 最佳实践和维护
- 故障排除
- 从 2021.10 自动升级后,集群运行状况不佳
- 无法获取沙盒映像
- Pod 未显示在 ArgoCD 用户界面中
- Redis 探测器失败
- RKE2 服务器无法启动
- 在 UiPath 命名空间中找不到密码
- 初始安装后,ArgoCD 应用程序进入“进行中”状态
- MongoDB Pod 处于 CrashLoopBackOff 状态或在删除后处于“等待 PVC 配置”状态
- 意外错误:不一致;手动运行 fsck
- 集群还原后 MongoDB 或业务应用程序降级
- 缺少 Self-heal-operator 和 Sf-k8-utils 存储库
- 集群还原或回滚后服务不正常
- RabbitMQ Pod 卡在 CrashLoopBackOff 中
- Prometheus 处于 CrashLoopBackoff 状态,并出现内存不足 (OOM) 错误
- 监控仪表板中缺少 Ceph-rook 指标
- 使用 Automation Suite 诊断工具
- 使用 Automation Suite 支持包工具
- 探索日志
从 2021.10 自动升级后,集群运行状况不佳
Automation Suite 安装指南
上次更新日期 2024年4月24日
从 2021.10 自动升级后,集群运行状况不佳
在从 Automation Suite 2021.10 自动升级期间,CNI 提供程序将从 Canal 迁移到 Cilium。此操作要求重新启动所有节点。在极少数情况下,一个或多个节点可能无法成功重新启动,从而导致在这些节点上运行的 Pod 保持槽糕的运行状态。
-
识别失败的重新启动。
在 Ansible 执行期间,您可能会看到类似于以下代码片段的输出:
TASK [Reboot the servers] *************************************************************************************************************************** fatal: [10.0.1.6]: FAILED! => msg: 'Failed to connect to the host via ssh: ssh: connect to host 10.0.1.6 port 22: Connection timed out'
TASK [Reboot the servers] *************************************************************************************************************************** fatal: [10.0.1.6]: FAILED! => msg: 'Failed to connect to the host via ssh: ssh: connect to host 10.0.1.6 port 22: Connection timed out'或者,浏览位于/var/tmp/uipathctl_<version>/_install-uipath.log
的 Ansible 主机上的日志。如果发现任何重新启动失败,请在所有节点上执行步骤 2 到 4。 -
确认每个节点都需要重新启动。
连接到每个节点并运行以下命令:
ssh <username>@<ip-address> iptables-save 2>/dev/null | grep -i cali -c
ssh <username>@<ip-address> iptables-save 2>/dev/null | grep -i cali -c如果结果不为零,则需要重新启动。
-
重新启动节点:
sudo reboot
sudo reboot - 等待节点响应(您应该能够通过 SSH 访问该节点),然后在每个其他节点上重复步骤 2 到 4。