Todas as réplicas do Longhorn estão com falha

Description

Se as réplicas do Longhorn estiverem em um estado com falha e precisarem de salvamento manual, o volume pode não ser capaz de anexar e permanecer em um estado de separação.

Para verificar se o volume requer salvamento manual, execute os seguintes comandos:

kubectl  logs -l app=longhorn-manager  -n longhorn-system  -c longhorn-manager --prefix=true  --tail=-1  |grep "set engine salvageRequested to true" | grep <PV NAME>kubectl  logs -l app=longhorn-manager  -n longhorn-system  -c longhorn-manager --prefix=true  --tail=-1  |grep "set engine salvageRequested to true" | grep <PV NAME>

Amostra de saída:

2023-11-20T18:22:16.667609096+11:00 time="2023-11-20T07:22:16Z" level=info msg="All replicas are failed, set engine salvageRequested to true" accessMode=rwo controller=longhorn-volume frontend=blockdev migratable=false node=rpa-suite-dev-01.it.csiro.au owner=rpa-suite-dev-01.it.csiro.au state=detaching volume=pvc-031fd6bc-9cfe-420a-9213-da38509d733a2023-11-20T18:22:16.667609096+11:00 time="2023-11-20T07:22:16Z" level=info msg="All replicas are failed, set engine salvageRequested to true" accessMode=rwo controller=longhorn-volume frontend=blockdev migratable=false node=rpa-suite-dev-01.it.csiro.au owner=rpa-suite-dev-01.it.csiro.au state=detaching volume=pvc-031fd6bc-9cfe-420a-9213-da38509d733a

Solução

Para corrigir esse problema, siga as seguintes etapas:

Reduza os pods de carga de trabalho.

Encontre réplicas do volume relevante executando o seguinte comando:

kubectl get replicas.longhorn.io -n longhorn-system |grep <PV_NAME>kubectl get replicas.longhorn.io -n longhorn-system |grep <PV_NAME>

Edite o objeto replicas.longhorn.io para o PV relevante executando o seguinte comando e defina o campo spec.failedat como empty(““).
```
kubectl get replicas.longhorn.io -n longhorn-system |grep <PV_NAME>kubectl get replicas.longhorn.io -n longhorn-system |grep <PV_NAME>
```
Aumente os pods de carga de trabalho.