2021.10 からの自動アップグレード後にクラスターが異常になる

Automation Suite 2021.10 からの自動アップグレード中に、CNI プロバイダーが Canal から Cilium に移行されます。この操作では、すべてのノードを再起動する必要があります。まれに、1 つ以上のノードが正常に再起動されないことがあります。この場合、それらのノードで実行されているポッドが異常なままになります。

回復の手順

失敗した再起動を特定します。

Ansible の実行中に、次のスニペットのような出力が表示される場合があります。
```
TASK [Reboot the servers] ***************************************************************************************************************************
fatal: [10.0.1.6]: FAILED! =>
  msg: 'Failed to connect to the host via ssh: ssh: connect to host 10.0.1.6 port 22: Connection timed out'TASK [Reboot the servers] ***************************************************************************************************************************
fatal: [10.0.1.6]: FAILED! =>
  msg: 'Failed to connect to the host via ssh: ssh: connect to host 10.0.1.6 port 22: Connection timed out'
```
または、Ansible ホストマシンのログを参照します。このログは、/var/tmp/uipathctl_<version>/_install-uipath.log にあります。失敗した再起動を特定したら、すべてのノードで手順 2 から 4 を実行します。
各ノードで、再起動が必要であるかを確認します。

各ノードに接続し、次のコマンドを実行します。
```
ssh <username>@<ip-address>
iptables-save 2>/dev/null | grep -i cali -cssh <username>@<ip-address>
iptables-save 2>/dev/null | grep -i cali -c
```
結果が 0 でない場合は、再起動が必要です。
ノードを再起動します。
```
sudo rebootsudo reboot
```
ノードが応答可能になるまで待ち (ノードに SSH で接続できる必要があります)、他のすべてのノードで手順 2 から 4 を繰り返します。