- 概要
- 要件
- インストール
- インストール後
- クラスターの管理
- 監視とアラート機能
- 監視スタックを使用する
- アラートの Runbook
- 移行とアップグレード
- 製品固有の設定
- ベスト プラクティスとメンテナンス
- トラブルシューティング
- インストール時にサービスをトラブルシューティングする方法
- クラスターをアンインストールする方法
- オフライン成果物をクリーンアップしてディスク領域を改善する方法
- Redis データをクリアする方法
- Istio ログを有効化する方法
- ログを手動でクリーンアップする方法
- sf-logs バケットに保存されている古いログをクリーンアップする方法
- AI Center のストリーミング ログを無効化する方法
- 失敗した Automation Suite インストールをデバッグする方法
- アップグレード後に古いインストーラーからイメージを削除する方法
- Longhorn のスナップショットを自動的にクリーンアップする方法
- TX チェックサム オフロードを無効化する方法
- TLS 1.2 で弱い暗号に対処する方法
- RHEL 8.4 OS でオフライン インストールを実行できない
- バンドルのダウンロード中のエラー
- バイナリがないため、オフライン インストールが失敗する
- オフライン インストールでの証明書の問題
- Longhorn のセットアップ中に最初のインストールが失敗する
- SQL 接続文字列の検証エラー
- selinux iscsid モジュールの前提条件の確認が失敗する
- Azure ディスクが SSD としてマークされない
- 証明書の更新後のエラー
- OS のアップグレード後に Automation Suite が動作しない
- Automation Suite で Backlog_wait_time を 1 に設定する必要がある
- ワークロードの準備ができていないためボリュームをマウントできない
- インストールおよびアップグレード中に RKE2 が失敗する
- 管理ポータルのタイムアウト期間を設定する
- 基になるディレクトリ接続を更新する
- 移行後にログインできない
- Kinit: Cannot Find KDC for Realm <AD Domain> While Getting Initial Credentials
- kinit: Keytab contains no suitable keys for *** while getting initial credentials
- GSSAPI operation failed with error: An invalid status code was supplied (Client's credentials have been revoked).
- Alarm received for failed kerberos-tgt-update job
- SSPI Provider: Server not found in Kerberos database
- Login Failed for User <ADDOMAIN><aduser>. Reason: The Account Is Disabled.
- ArgoCD へのログインに失敗した
- サンドボックス イメージを取得できない
- ポッドが ArgoCD UI に表示されない
- Redis プローブの障害
- RKE2 サーバーの起動に失敗する
- UiPath 名前空間でシークレットが見つからない
- 初期インストール後、ArgoCD アプリが Progressing ステートになる
- MongoDB ポッドが CrashLoopBackOff になるか、削除後に PVC プロビジョニングの保留中になる
- Unexpected inconsistency; run fsck manually
- クラスターの復元後に MongoDB またはビジネス アプリケーションの機能が低下する
- self-heal-operator および sf-k8-utils リポジトリが見つからない
- クラスターの復元またはロールバック後にサービスが異常になる
- RabbitMQ ポッドが CrashLoopBackOff でスタックする
- Prometheus が CrashloopBackoff ステートにあり、メモリ不足 (OOM) エラーを伴う
- Ceph-rook のメトリックが監視ダッシュボードに表示されない
- プロキシ環境でポッドが FQDN と通信できない
- Automation Suite 診断ツールを使用する
- Automation Suite サポート バンドル ツールを使用する
- ログを確認する
監視スタックを使用する
Automation Suite クラスターの監視スタックには、Prometheus、Grafana、および Alertmanager が含まれ、これらは Rancher Cluster Explorer UI 内で連携されます。
ノードに障害が発生すると Kubernetes がシャットダウンし、Prometheus のアラートが中断される可能性があります。これを防ぐには、RKE2 サーバー上に別個のアラートを設定することをお勧めします。
このページでは、一連の監視シナリオについて説明します。詳細については、Rancher Monitoring の使用に関する公式の Rancher ドキュメントをご覧ください。
コレクターを使用してサードパーティ ツールにメトリックをエクスポートする場合、アプリケーションの監視を有効化すると、Automation Suite の機能が中断される可能性があります。
[Monitoring] ダッシュボードの下部ペインで、現在発生しているアラートを確認します。次のスクリーンショットに、現在発生しているいくつかのアラートを示します。
アラートの外部受信者を設定することを強くお勧めします。このようにして、アラートは発生するとプッシュされ、最新のアラートを表示するために [Monitoring] ダッシュボードを更新する必要はありません。
外部受信者にアラートを送信する方法の詳細については、Alertmanager Receiver の設定に関する Rancher のドキュメントをご覧ください。
受信者に加え、その受信者を使用するルートを少なくとも 1 つ構成する必要があります。ルートにより、アラートをどのようにグループ化するか、およびどのアラートを受信者に送信するかが定義されます。Alertmanager のルート設定に関する Rancher ドキュメントをご覧ください。
Slack Receiver の使用時にアラートを表示する方法の例を以下に示します。AlertManager へのリンクをクリックすると、AlertManager コンソールが表示されます。ここでは、アラートを抑制することができ、アラートをトリガーした Prometheus 式へのリンクも表示されます。Runbook URLをクリックすると、このページが表示され、具体的な修正策が示されます。これらのリンクは、アラートが他の外部受信者に送信される場合にも示されます。
[Istio Mesh] と [Istio Workload] の Grafana ダッシュボードから、Istio サービス メッシュを監視できます。
このダッシュボードには、選択した期間での全体的な要求量と、サービス メッシュ全体の 400 と 500 のエラー率が表示されます。このデータはウィンドウの右上に表示されます。この情報については、上部の 4 つのグラフをご覧ください。
ここには、個々のサービスの過去 1 分間における即時成功率も表示されます。NaN という成功率は、そのサービスで現在トラフィックがないことを示しています。
[Kubernetes / Persistent Volumes] ダッシュボードでは、永続ボリュームを監視できます。各ボリュームについて、空き領域と使用されている領域を追跡できます。
Cluster Explorer の [Storage] メニュー内の [PersistentVolumes] 項目をクリックして、各ボリュームのステータスを確認することもできます。
ノードごとのハードウェア使用状況を確認するには、[Nodes] ダッシュボードを使用できます。CPU 上のデータ、メモリ、ディスク、およびネットワークについて表示できます。
[Kubernetes / Compute Resources / Namespace (Workloads)] ダッシュボードを使用して、特定のワークロードのハードウェア使用状況を監視できます。uipath 名前空間を選択して必要なデータを取得します。
- グラフ タイトルの横にある下矢印をクリックし、[Share] を選択します。
- [Snapshot] タブをクリックし、[Snapshot name]、[Expire]、および [Timeout] を設定します。
- [Publish] をクリックし、snapshot.raintank.io. にパブリッシュします。
詳細については、ダッシュボードの共有に関する Grafana のドキュメントをご覧ください。
カスタムの永続 Grafana ダッシュボードを作成する方法について詳しくは、Rancher のドキュメントをご覧ください。
ダッシュボードは、既定で匿名ユーザーでも読み取りアクセスが可能であるため、Grafana への管理アクセスは、通常 Automation Suite クラスターでは必要ありません。カスタムの永続ダッシュボードの作成は、このドキュメントでリンクを示した Kubernetes ネイティブの手順を使用して作成する必要があります。
Grafana への管理アクセスは、次の手順で実行できます。
Grafana 管理アクセスの既定のユーザー名とパスワードは、次のようにして取得できます。
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-user}' | base64 -d && echo
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-password}' | base64 -d && echo
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-user}' | base64 -d && echo
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-password}' | base64 -d && echo
高可用性 Automation Suite クラスターでは、ノードの障害時の中断のない読み取りアクセスや、より大量の読み取りクエリを可能にするため、複数の Grafana ポッドが存在することに注意してください。ポッドはセッション ステートを共有せず、ログインにはこのステートが必要なため、この状況は管理アクセスには適合しません。これを回避するには、管理アクセスが必要な場合に、Grafana レプリカの数を一時的に 1 にする必要があります。Grafana レプリカの数をスケーリングする方法については以下をご覧ください。
# scale down
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=1
# scale up
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=2
# scale down
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=1
# scale up
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=2
ポッド、デプロイ、ステートフルセットなどのステータスを表示するには、Cluster Explorer UI を使用できます。これは、Rancher サーバー エンドポイントにログインした後に表示されるページと同じページです。このホームページには、概要が表示され、左側で各リソース タイプに固有の詳細にドリルダウンできます。ページの上部には、名前空間セレクターがあります。このダッシュボードをレンズツールと置き換えることもできます。
Prometheus は、Prometheus リモート書き込み機能を使用して、Prometheus メトリックを収集し、外部システムにエクスポートします。
Automation Suite クラスターで remote_write
を設定するには、以下の手順を実行します。
- Rancher 監視ダッシュボードにアクセスする
- 現在発生しているアラートを確認する
- アラートを抑制する
- 外部受信者にアラートを送信する
- Grafana ダッシュボードにアクセスする
- サービス メッシュを監視する
- Istio Mesh ダッシュボード
- Istio Workload ダッシュボード
- 永続ボリュームを監視する
- ハードウェアの使用状況を監視する
- Grafana のグラフの共有可能な視覚的スナップショットを作成する
- カスタムの永続 Grafana ダッシュボードを作成する
- Grafana への管理アクセス
- Prometheus にクエリを実行する
- カスタム アラートを作成する
- Kubernetes リソース ステータスを監視する
- Prometheus メトリックを外部システムにエクスポートする