Automation Suite
2023.10
False
横幅背景图像
Linux 版 Automation Suite 安装指南
上次更新日期 2024年4月19日

并行升级后,发现 Ceph 集群处于降级状态

描述

有时,在并行升级后,Rook-ceph 应用程序在 ArgoCD 门户中进入“同步失败”状态。这是由于上游 Ceph 问题。

要确定状态降级的原因,请运行以下命令:

kubectl -n rook-ceph exec deploy/rook-ceph-tools -- ceph -skubectl -n rook-ceph exec deploy/rook-ceph-tools -- ceph -s 

如果您收到类似于以下示例的输出,则问题与 Rook-Ceph 运行状况有关:

cluster:
    id:     936b2e58-1014-4237-b2a5-6e95449a9ce8
    health: HEALTH_ERR
            Module 'devicehealth' has failed: disk I/O error

  services:
    mon: 3 daemons, quorum a,b,c (age 11h)
    mgr: b(active, since 37h), standbys: a
    osd: 3 osds: 3 up (since 37h), 3 in (since 37h)
    rgw: 2 daemons active (2 hosts, 1 zones)

  data:
    pools:   8 pools, 225 pgs
    objects: 53.57k objects, 26 GiB
    usage:   80 GiB used, 688 GiB / 768 GiB avail
    pgs:     225 active+clean

  io:
    client:   561 KiB/s rd, 61 KiB/s wr, 316 op/s rd, 123 op/s wr  cluster:
    id:     936b2e58-1014-4237-b2a5-6e95449a9ce8
    health: HEALTH_ERR
            Module 'devicehealth' has failed: disk I/O error

  services:
    mon: 3 daemons, quorum a,b,c (age 11h)
    mgr: b(active, since 37h), standbys: a
    osd: 3 osds: 3 up (since 37h), 3 in (since 37h)
    rgw: 2 daemons active (2 hosts, 1 zones)

  data:
    pools:   8 pools, 225 pgs
    objects: 53.57k objects, 26 GiB
    usage:   80 GiB used, 688 GiB / 768 GiB avail
    pgs:     225 active+clean

  io:
    client:   561 KiB/s rd, 61 KiB/s wr, 316 op/s rd, 123 op/s wr

解决方案

要解决此问题,请执行以下步骤:

  1. 在输出代码片段中,识别处于活动状态的“Manager mgr”服务。在提供的示例中,mgr: b 被标记为活动。
  2. 要确定确切的 Pod 名称,请运行以下命令:

    kubectl -n rook-ceph get pods | grep "rook-ceph-mgr-<active-manager-name>"kubectl -n rook-ceph get pods | grep "rook-ceph-mgr-<active-manager-name>"
    该命令应返回类似于以下示例的输出,其中 rook-ceph-mgr-b-6d7bdb4b54-zz47v 是管理器 Pod 名称:
    rook-ceph-mgr-b-6d7bdb4b54-zz47v 0/1 Init:0/1 0 3h55mrook-ceph-mgr-b-6d7bdb4b54-zz47v 0/1 Init:0/1 0 3h55m
  3. 通过运行以下命令删除活动管理器:

    kubectl -n rook-ceph delete pod <active-manager-pod-name>
    
    // for example: kubectl -n rook-ceph delete pod rook-ceph-mgr-b-6d7bdb4b54-zz47vkubectl -n rook-ceph delete pod <active-manager-pod-name>
    
    // for example: kubectl -n rook-ceph delete pod rook-ceph-mgr-b-6d7bdb4b54-zz47v

删除活动管理器会强制其重新启动,从而将 Ceph 集群状态转变为“正常运行”。

  • 描述
  • 解决方案

此页面是否有帮助?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath 白色徽标
信任与安全
© 2005-2024 UiPath. All rights reserved.