- 概要
- 要件
- インストール
- インストール後
- クラスターの管理
- 監視とアラート機能
- 監視スタックを使用する
- アラートの Runbook
- 移行とアップグレード
- 製品固有の設定
- ベスト プラクティスとメンテナンス
- トラブルシューティング
- インストール時にサービスをトラブルシューティングする方法
- クラスターをアンインストールする方法
- オフライン成果物をクリーンアップしてディスク領域を改善する方法
- Redis データをクリアする方法
- Istio ログを有効化する方法
- ログを手動でクリーンアップする方法
- sf-logs バンドルに保存されている古いログをクリーンアップする方法
- AI Center のストリーミング ログを無効化する方法
- 失敗した Automation Suite インストールをデバッグする方法
- アップグレード後に古いインストーラーからイメージを削除する方法
- Longhorn のスナップショットを自動的にクリーンアップする方法
- TX チェックサム オフロードを無効化する方法
- ArgoCD のログ レベルを手動で Info に設定する方法
- 外部レジストリーのエンコードされたpull_secret_valueを生成する方法
- TLS 1.2 で弱い暗号に対処する方法
- RHEL 8.4 OS でオフライン インストールを実行できない
- バンドルのダウンロード中のエラー
- バイナリがないため、オフライン インストールが失敗する
- オフライン インストールでの証明書の問題
- Longhorn のセットアップ中に最初のインストールが失敗する
- SQL 接続文字列の検証エラー
- selinux iscsid モジュールの前提条件の確認が失敗する
- Azure ディスクが SSD としてマークされない
- 証明書の更新後のエラー
- ウイルス対策が原因でインストールの問題が発生する
- OS のアップグレード後に Automation Suite が動作しない
- Automation Suite で backlog_wait_time を 0 に設定する必要がある
- リソースが利用できないことの影響を受ける GPU ノード
- ワークロードの準備ができていないためボリュームをマウントできない
- 管理ポータルのタイムアウト期間を設定する
- 基になるディレクトリ接続を更新する
- 移行後に認証が機能しない
- Kinit: Cannot find KDC for realm <AD Domain> while getting initial credentials
- kinit: Keytab contains no suitable keys for *** while getting initial credentials
- 無効なステータス コードが原因で GSSAPI 操作が失敗した
- Alarm received for failed kerberos-tgt-update job
- SSPI Provider: Server not found in Kerberos database
- アカウントが無効なため AD ユーザーのログインに失敗した
- ArgoCD へのログインに失敗した
- サンドボックス イメージを取得できない
- ポッドが ArgoCD UI に表示されない
- Redis プローブの障害
- RKE2 サーバーの起動に失敗する
- UiPath 名前空間でシークレットが見つからない
- 初回インストール後に ArgoCD が進行中ステートになる
- ArgoCD の読み取り専用アカウントにアクセスする際の問題
- MongoDB ポッドが CrashLoopBackOff になるか、削除後に PVC プロビジョニングの保留中になる
- クラスターの復元またはロールバック後にサービスが異常になる
- Init:0/X でポッドがスタックする
- Prometheus が CrashloopBackoff ステートにあり、メモリ不足 (OOM) エラーを伴う
- Ceph-rook のメトリックが監視ダッシュボードに表示されない
- Automation Suite 診断ツールを使用する
- Automation Suite サポート バンドル ツールを使用する
- ログを確認する
監視スタックを使用する
Automation Suite クラスターの監視スタックには、Prometheus、Grafana、および Alertmanager が含まれ、これらは Rancher Cluster Explorer UI 内で連携されます。
ノードに障害が発生すると Kubernetes がシャットダウンし、Prometheus のアラートが中断される可能性があります。これを防ぐには、RKE2 サーバー上に別個のアラートを設定することをお勧めします。
このページでは、一連の監視シナリオについて説明します。詳細については、Rancher Monitoring の使用に関する公式の Rancher ドキュメントをご覧ください。
コレクターを使用してサードパーティ ツールにメトリックをエクスポートする場合、アプリケーションの監視を有効化すると、Automation Suite の機能が中断される可能性があります。
Automation Suite クラスターの監視スタックには、Prometheus、Grafana、Alert Manager、Longhorn ダッシュボードが含まれます。
このページでは、一連の監視シナリオについて説明します。
詳細については、Rancher Monitoring の使用に関する公式の Rancher ドキュメントをご覧ください。
Automation Suite 監視ツールには、次の URL を使用して個別にアクセスできます。
アプリケーション |
ツール |
URL |
例 |
---|---|---|---|
メトリック |
Prometheus |
|
|
ダッシュボード |
Grafana |
|
|
アラート管理 |
Alertmanager |
|
|
永続ブロック ストレージ |
Longhorn ダッシュボード |
|
|
監視ツールに初めてアクセスする場合、管理者として次の既定の資格情報でログインします。
- ユーザー名: admin
- パスワード: パスワードを取得するには、
次のコマンドを実行
します。
kubectl get secrets/dex-static-credential -n uipath-auth -o "jsonpath={.data['password']}" | base64 -d
kubectl get secrets/dex-static-credential -n uipath-auth -o "jsonpath={.data['password']}" | base64 -d
監視ツールへのアクセスに使用する既定のパスワードを更新するには、次の手順を実行します。
-
newpassword
を新しいパスワードに置き換えて、次のコマンドを実行します。password="newpassword" password=$(echo -n $password | base64) kubectl patch secret dex-static-credential -n uipath-auth --type='json' -p="[{'op': 'replace', 'path': '/data/password', 'value': '$password'}]"
password="newpassword" password=$(echo -n $password | base64) kubectl patch secret dex-static-credential -n uipath-auth --type='json' -p="[{'op': 'replace', 'path': '/data/password', 'value': '$password'}]" -
<cluster_config.json>
を構成ファイルのパスに置き換えて、次のコマンドを実行します。/opt/UiPathAutomationSuite/UiPath_Installer/install-uipath.sh -i <cluster_config.json> -f -o output.json --accept-license-agreement
/opt/UiPathAutomationSuite/UiPath_Installer/install-uipath.sh -i <cluster_config.json> -f -o output.json --accept-license-agreement
https://monitoring.fqdn/metrics
を使用して Prometheus に移動し、[Alerts] タブをクリックします。ここでは、Automation Suite で設定されたすべてのアラートを確認できます。
アクティブなアラートを表示するには、上部の [Firing] チェックボックスと [Show annotations] チェックボックスをオンにして、アラートのステータスをフィルター処理します。ここでは、現在発生しているすべてのアラートと、対応するメッセージを確認できます。
uipathctl
は Automation Suite のインストール フォルダー .../UiPathAutomationSuite/UiPath_Installer/bin
にあります。
インストール後に新しいメール設定を追加するには、次のコマンドを実行します。
./uipathctl config alerts add-email \
--name test \
--to "admin@example.com" \
--from "admin@example.com" \
--smtp server.mycompany.com \
--username admin \
--password somesecret \
--require-tls \
--ca-file <path_to_ca_file> \
--cert-file <path_to_cert_file> \
--key-file <path_to_key_file> \
--send-resolved
./uipathctl config alerts add-email \
--name test \
--to "admin@example.com" \
--from "admin@example.com" \
--smtp server.mycompany.com \
--username admin \
--password somesecret \
--require-tls \
--ca-file <path_to_ca_file> \
--cert-file <path_to_cert_file> \
--key-file <path_to_key_file> \
--send-resolved
フラグ |
説明 |
例 |
---|---|---|
|
メール設定の名前 |
|
|
受信者のメール アドレス |
|
|
送信者のメール アドレスです。 |
|
|
SMTP サーバーの URL または IP アドレスとポート番号 |
|
|
認証ユーザー名 |
|
|
認証パスワード |
|
|
SMTP サーバーで TLS が有効化されることを示す Boolean フラグ。 |
N/A |
|
SMTP サーバーの CA 証明書を含むファイル パス。CA がプライベートの場合、これは任意です。 |
|
|
SMTP サーバーの証明書を含むファイル パス。証明書がプライベートの場合、これは任意です。 |
|
|
SMTP サーバーの証明書の秘密キーを含むファイル パスです。証明書がプライベートの場合、これは必須です。 |
|
|
アラートの解決後にメールを送信する Boolean フラグ。 |
N/A |
メール設定を削除するには、次のコマンドを実行する必要があります。必ず、削除するメール設定の名前を渡してください。
./uipathctl config alerts remove-email --name test
./uipathctl config alerts remove-email --name test
Grafana ダッシュボードにアクセスするには、資格情報を取得し、その資格情報を使用してログインする必要があります。
-
ユーザー名:
kubectl -n cattle-monitoring-system get secrets/rancher-monitoring-grafana -o "jsonpath={.data.admin-user}" | base64 -d; echo
kubectl -n cattle-monitoring-system get secrets/rancher-monitoring-grafana -o "jsonpath={.data.admin-user}" | base64 -d; echo -
パスワード:
kubectl -n cattle-monitoring-system get secrets/rancher-monitoring-grafana -o "jsonpath={.data.admin-password}" | base64 -d; echo
kubectl -n cattle-monitoring-system get secrets/rancher-monitoring-grafana -o "jsonpath={.data.admin-password}" | base64 -d; echo
[Istio Mesh] と [Istio Workload] の Grafana ダッシュボードから、Istio サービス メッシュを監視できます。
このダッシュボードには、選択した期間での全体的な要求量と、サービス メッシュ全体の 400 と 500 のエラー率が表示されます。このデータはウィンドウの右上に表示されます。この情報については、上部の 4 つのグラフをご覧ください。
ここには、個々のサービスの過去 1 分間における即時成功率も表示されます。NaN という成功率は、そのサービスで現在トラフィックがないことを示しています。
[Kubernetes / Persistent Volumes] ダッシュボードでは、永続ボリュームを監視できます。各ボリュームについて、空き領域と使用されている領域を追跡できます。
Cluster Explorer の [Storage] メニュー内の [PersistentVolumes] 項目をクリックして、各ボリュームのステータスを確認することもできます。
ノードごとのハードウェア使用状況を確認するには、[Nodes] ダッシュボードを使用できます。CPU 上のデータ、メモリ、ディスク、およびネットワークについて表示できます。
[Kubernetes / Compute Resources / Namespace (Workloads)] ダッシュボードを使用して、特定のワークロードのハードウェア使用状況を監視できます。uipath 名前空間を選択して必要なデータを取得します。
- グラフ タイトルの横にある下矢印をクリックし、[Share] を選択します。
- [Snapshot] タブをクリックし、[Snapshot name]、[Expire]、および [Timeout] を設定します。
- [Publish] をクリックし、snapshot.raintank.io. にパブリッシュします。
詳細については、ダッシュボードの共有に関する Grafana のドキュメントをご覧ください。
カスタムの永続 Grafana ダッシュボードを作成する方法について詳しくは、Rancher のドキュメントをご覧ください。
ダッシュボードは、既定で匿名ユーザーでも読み取りアクセスが可能であるため、Grafana への管理アクセスは、通常 Automation Suite クラスターでは必要ありません。カスタムの永続ダッシュボードの作成は、このドキュメントでリンクを示した Kubernetes ネイティブの手順を使用して作成する必要があります。
Grafana への管理アクセスは、次の手順で実行できます。
Grafana 管理アクセスの既定のユーザー名とパスワードは、次のようにして取得できます。
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-user}' | base64 -d && echo
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-password}' | base64 -d && echo
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-user}' | base64 -d && echo
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-password}' | base64 -d && echo
高可用性 Automation Suite クラスターでは、ノードの障害時の中断のない読み取りアクセスや、より大量の読み取りクエリを可能にするため、複数の Grafana ポッドが存在することに注意してください。ポッドはセッション ステートを共有せず、ログインにはこのステートが必要なため、この状況は管理アクセスには適合しません。これを回避するには、管理アクセスが必要な場合に、Grafana レプリカの数を一時的に 1 にする必要があります。Grafana レプリカの数をスケーリングする方法については以下をご覧ください。
# scale down
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=1
# scale up
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=2
# scale down
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=1
# scale up
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=2
ブール式による Prometheus クエリを使用して、カスタム アラートを作成できます。
- このためには、[Monitoring] ダッシュボードの [Advanced] メニューで [Prometheus Rules] をクリックします。
- ウィンドウの右上にある [Create] をクリックして新しいアラートを作成し、Rancher のドキュメント「PrometheusRules」に従います。
- アラートが発生すると、これが [Monitoring] ダッシュボードに表示されます。また、設定した受信者に通知されます。
ポッド、デプロイ、ステートフルセットなどのステータスを表示するには、Cluster Explorer UI を使用できます。これは、Rancher サーバー エンドポイントにログインした後に表示されるページと同じページです。このホームページには、概要が表示され、左側で各リソース タイプに固有の詳細にドリルダウンできます。ページの上部には、名前空間セレクターがあります。このダッシュボードをレンズツールと置き換えることもできます。
Prometheus は、Prometheus リモート書き込み機能を使用して、Prometheus メトリックを収集し、外部システムにエクスポートします。
Automation Suite クラスターで remote_write
を設定するには、以下の手順を実行します。
- 監視ツールにアクセスする
- 概要
- 認証
- 現在発生しているアラートを確認する
- アラートを抑制する
- アラートを設定する
- 新しいメール設定を追加する
- メール設定を削除する
- メール設定を更新する
- Grafana ダッシュボードにアクセスする
- サービス メッシュを監視する
- Istio Mesh ダッシュボード
- Istio Workload ダッシュボード
- 永続ボリュームを監視する
- ハードウェアの使用状況を監視する
- Grafana のグラフの共有可能な視覚的スナップショットを作成する
- カスタムの永続 Grafana ダッシュボードを作成する
- Grafana への管理アクセス
- Prometheus にクエリを実行する
- カスタム アラートを作成する
- Kubernetes リソース ステータスを監視する
- Prometheus メトリックを外部システムにエクスポートする