Ceph-Cluster in beeinträchtigtem Status nach parallelem Upgrade

Beschreibung

Gelegentlich wechselt die Rook-ceph-Anwendung nach einem parallelen Upgrade im ArgoCD-Portal in den Status „Synchronisierung fehlgeschlagen“. Das liegt an einem Upstream-Ceph-Problem.

Um den Grund für den beeinträchtigten Status zu ermitteln, führen Sie den folgenden Befehl aus:

kubectl -n rook-ceph exec deploy/rook-ceph-tools -- ceph -skubectl -n rook-ceph exec deploy/rook-ceph-tools -- ceph -s

Wenn Sie eine Ausgabe wie im folgenden Beispiel erhalten, hängt das Problem mit dem Zustand von Rook-Ceph zusammen:

cluster:
    id:     936b2e58-1014-4237-b2a5-6e95449a9ce8
    health: HEALTH_ERR
            Module 'devicehealth' has failed: disk I/O error

  services:
    mon: 3 daemons, quorum a,b,c (age 11h)
    mgr: b(active, since 37h), standbys: a
    osd: 3 osds: 3 up (since 37h), 3 in (since 37h)
    rgw: 2 daemons active (2 hosts, 1 zones)

  data:
    pools:   8 pools, 225 pgs
    objects: 53.57k objects, 26 GiB
    usage:   80 GiB used, 688 GiB / 768 GiB avail
    pgs:     225 active+clean

  io:
    client:   561 KiB/s rd, 61 KiB/s wr, 316 op/s rd, 123 op/s wr  cluster:
    id:     936b2e58-1014-4237-b2a5-6e95449a9ce8
    health: HEALTH_ERR
            Module 'devicehealth' has failed: disk I/O error

  services:
    mon: 3 daemons, quorum a,b,c (age 11h)
    mgr: b(active, since 37h), standbys: a
    osd: 3 osds: 3 up (since 37h), 3 in (since 37h)
    rgw: 2 daemons active (2 hosts, 1 zones)

  data:
    pools:   8 pools, 225 pgs
    objects: 53.57k objects, 26 GiB
    usage:   80 GiB used, 688 GiB / 768 GiB avail
    pgs:     225 active+clean

  io:
    client:   561 KiB/s rd, 61 KiB/s wr, 316 op/s rd, 123 op/s wr

Lösung

Führen Sie die folgenden Schritte aus, um das Problem zu beheben:

Identifizieren Sie im Ausgabe-Snippet den mgr-Manager-Dienst mit einem aktiven Status. Im bereitgestellten Beispiel ist mgr: b als aktiv markiert.

Um den genauen Pod-Namen zu ermitteln, führen Sie den folgenden Befehl aus:

kubectl -n rook-ceph get pods | grep "rook-ceph-mgr-<active-manager-name>"kubectl -n rook-ceph get pods | grep "rook-ceph-mgr-<active-manager-name>"

Der Befehl sollte eine Ausgabe ähnlich dem folgenden Beispiel zurückgeben, wobei rook-ceph-mgr-b-6d7bdb4b54-zz47v der Manager-Pod-Name ist:

rook-ceph-mgr-b-6d7bdb4b54-zz47v 0/1 Init:0/1 0 3h55mrook-ceph-mgr-b-6d7bdb4b54-zz47v 0/1 Init:0/1 0 3h55m

Löschen Sie den aktiven Manager, indem Sie den folgenden Befehl ausführen:

kubectl -n rook-ceph delete pod <active-manager-pod-name>

// for example: kubectl -n rook-ceph delete pod rook-ceph-mgr-b-6d7bdb4b54-zz47vkubectl -n rook-ceph delete pod <active-manager-pod-name>

// for example: kubectl -n rook-ceph delete pod rook-ceph-mgr-b-6d7bdb4b54-zz47v

Das Löschen des aktiven Managers erzwingt einen Neustart, wodurch der Ceph-Cluster einen fehlerfreien Zustand erreicht.

Auf dieser Seite