Automation Suite
2022.4
False
- 概述
- 要求
- 安装
- 安装后
- 集群管理
- 监控和警示
- 迁移和升级
- 特定于产品的配置
- 最佳实践和维护
- 故障排除
- 无法获取沙盒映像
- Pod 未显示在 ArgoCD 用户界面中
- Redis 探测器失败
- RKE2 服务器无法启动
- 在 UiPath 命名空间中找不到密码
- 初始安装后,ArgoCD 应用程序进入“进行中”状态
- MongoDB Pod 处于 CrashLoopBackOff 状态或在删除后处于“等待 PVC 配置”状态
- 意外错误:不一致;手动运行 fsck
- 集群还原后 MongoDB 或业务应用程序降级
- 缺少 Self-heal-operator 和 Sf-k8-utils 存储库
- 集群还原或回滚后服务不正常
- RabbitMQ Pod 卡在 CrashLoopBackOff 中
- Prometheus 处于 CrashLoopBackoff 状态,并出现内存不足 (OOM) 错误
- 监控仪表板中缺少 Ceph-rook 指标
- 使用 Automation Suite 诊断工具
- 使用 Automation Suite 支持包工具
- 探索日志
所有 Longhorn 副本均发生故障
Automation Suite 安装指南
上次更新日期 2024年4月24日
所有 Longhorn 副本均发生故障
如果 Longhorn 副本处于故障状态并需要手动抢救,则卷可能无法附加,并继续处于分离状态。
要检查卷是否需要手动抢救,请运行以下命令:
kubectl logs -l app=longhorn-manager -n longhorn-system -c longhorn-manager --prefix=true --tail=-1 |grep "set engine salvageRequested to true" | grep <PV NAME>
kubectl logs -l app=longhorn-manager -n longhorn-system -c longhorn-manager --prefix=true --tail=-1 |grep "set engine salvageRequested to true" | grep <PV NAME>
示例输出:
2023-11-20T18:22:16.667609096+11:00 time="2023-11-20T07:22:16Z" level=info msg="All replicas are failed, set engine salvageRequested to true" accessMode=rwo controller=longhorn-volume frontend=blockdev migratable=false node=rpa-suite-dev-01.it.csiro.au owner=rpa-suite-dev-01.it.csiro.au state=detaching volume=pvc-031fd6bc-9cfe-420a-9213-da38509d733a
2023-11-20T18:22:16.667609096+11:00 time="2023-11-20T07:22:16Z" level=info msg="All replicas are failed, set engine salvageRequested to true" accessMode=rwo controller=longhorn-volume frontend=blockdev migratable=false node=rpa-suite-dev-01.it.csiro.au owner=rpa-suite-dev-01.it.csiro.au state=detaching volume=pvc-031fd6bc-9cfe-420a-9213-da38509d733a
要解决此问题,请执行以下步骤:
-
缩小工作负载 Pod。
-
通过运行以下命令查找相关卷的副本:
kubectl get replicas.longhorn.io -n longhorn-system |grep <PV_NAME>
kubectl get replicas.longhorn.io -n longhorn-system |grep <PV_NAME> -
通过运行以下命令编辑相关 PV 的
replicas.longhorn.io
对象,并将spec.failedat
字段设置为空 (““
)。kubectl get replicas.longhorn.io -n longhorn-system |grep <PV_NAME>
kubectl get replicas.longhorn.io -n longhorn-system |grep <PV_NAME> -
扩展工作负载 Pod。