- 概要
- 要件
- デプロイ テンプレート
- 手動: インストールを準備する
- 手動: インストールを準備する
- 手順 2: オフライン インストール用に OCI 準拠レジストリを設定する
- 手順 3: 外部 ObjectStore を構成する
- 手順 4: High Availability Add-on を構成する
- 手順 5: SQL データベースを構成する
- 手順 6: ロード バランサーを構成する
- 手順 7: DNS を構成する
- 手順 8: ディスクを構成する
- 手順 9: カーネルと OS レベルの設定を構成する
- 手順 10: ノード ポートを構成する
- 手順 11: その他の設定を適用する
- 手順 12: 必要な RPM パッケージを検証してインストールする
- 手順 13: cluster_config.json を生成する
- Cluster_config.json のサンプル
- 全般的な構成
- プロファイル構成
- 証明書の設定
- データベースの構成
- 外部 ObjectStore の構成
- 署名済み URL の構成
- ArgoCD の構成
- Kerberos 認証の構成
- 外部の OCI 準拠レジストリの設定
- Disaster Recovery - アクティブ/パッシブおよびアクティブ/アクティブの構成
- High Availability Add-on の構成
- Orchestrator 固有の設定
- Insights 固有の構成
- Process Mining 固有の構成
- Document Understanding 固有の構成
- Automation Suite ロボット固有の構成
- AI Center 固有の構成
- 監視の構成
- 任意: プロキシ サーバーを構成する
- 任意: マルチノードの HA 対応の運用クラスターにおけるゾーン障害に対する復元設定を有効化する
- 任意: カスタムの Resolv.con を渡す
- 任意: フォールト トレランスを向上させる
- GPU がサポートされた専用のエージェント ノードを追加する
- Task Mining 専用のエージェント ノードを追加する
- Task Mining アプリケーションを接続する
- Automation Suite ロボット専用のエージェント ノードを追加する
- 手順 15: オフライン インストール用に一時的な Docker レジストリを設定する
- 手順 16: インストールの前提条件を検証する
- uipathc を実行する
- 手動: インストールを実行する
- インストール後
- クラスターの管理
- 監視とアラート機能
- 移行とアップグレード
- スタンドアロン製品を Automation Suite に移行する
- 手順 1: スタンドアロンの製品データベースを復元する
- 手順 2: 復元した製品データベースのスキーマを更新する
- 手順 3: Identity 組織データをスタンドアロンから Automation Suite に移動する
- 手順 4: Automation Suite のプラットフォーム データベースをバックアップする
- 手順 5: 組織を Automation Suite にマージする
- 手順 6: 以降済みの製品の接続文字列を更新する
- 手順 7: スタンドアロンの Orchestrator を移行する
- 手順 8: スタンドアロンの Insights を移行する
- 手順 9: スタンドアロンの Test Manager を移行する
- 手順 10: 既定のテナントを削除する
- 単一テナントの移行を実行する
- Automation Suite クラスター間を移行する
- Automation Suite をアップグレードする
- 製品固有の設定
- ベスト プラクティスとメンテナンス
- トラブルシューティング
- インストール時にサービスをトラブルシューティングする方法
- クラスターをアンインストールする方法
- オフライン成果物をクリーンアップしてディスク領域を改善する方法
- Redis データをクリアする方法
- Istio ログを有効化する方法
- ログを手動でクリーンアップする方法
- sf-logs バケットに保存されている古いログをクリーンアップする方法
- AI Center のストリーミング ログを無効化する方法
- 失敗した Automation Suite インストールをデバッグする方法
- アップグレード後に古いインストーラーからイメージを削除する方法
- TX チェックサム オフロードを無効化する方法
- ArgoCD のログ レベルを手動で Info に設定する方法
- AI Center のストレージを拡張する方法
- 外部レジストリーのエンコードされたpull_secret_valueを生成する方法
- TLS 1.2 で弱い暗号に対処する方法
- TLSのバージョンを確認する方法
- NFS バックアップ ディレクトリの権限を減らす方法
- 証明書の操作方法
- Ceph のバックアップとデータの復元をスケジュールする方法
- レジストリ ポッドから未使用の Docker イメージをクリーンアップする方法
- クラスター内の ObjectStore (Ceph) を使用して DU の使用状況データを収集する方法
- エアギャップ環境に RKE2 SELinux をインストールする方法
- NFS サーバー上の古い差分バックアップをクリーンアップする方法
- RHEL 8.4 OS でオフライン インストールを実行できない
- バンドルのダウンロード中のエラー
- バイナリがないため、オフライン インストールが失敗する
- オフライン インストールでの証明書の問題
- SQL 接続文字列の検証エラー
- Azure ディスクが SSD としてマークされない
- 証明書の更新後のエラー
- ウイルス対策が原因でインストールの問題が発生する
- OS のアップグレード後に Automation Suite が動作しない
- Automation Suite で backlog_wait_time を 0 に設定する必要がある
- ワークロードの準備ができていないためボリュームをマウントできない
- サポート バンドルのログ収集の失敗
- RHEL 8.9 でレジストリの一時インストールが失敗する
- オフライン インストール中に uipath 名前空間のデプロイで頻繁に発生する再起動の問題
- DNS 設定が CoreDNS によって受け入れられない
- 一時レジストリをインストールできない
- Automation Suite のアップグレード後に Insights を再インストールまたはアップグレードするとデータが失われる
- Automation Suite 2024.10.0 へのアップグレード後に Automation Hub にアクセスできない
- フック後のインポート中にアップグレードが失敗する
- シングルノードのアップグレードがファブリック ステージで失敗する
- Ceph の異常によりアップグレードが失敗する
- 領域の問題のために rke2 が開始しない
- ボリュームがマウントできず、アタッチ/デタッチ ループ状態のまま
- Orchestrator データベース内のクラシック オブジェクトが原因でアップグレードが失敗する
- Ceph クラスターがサイドバイサイド アップグレード後に機能低下ステートで検出される
- 異常な Insights コンポーネントが原因で移行が失敗する
- Apps のサービス アップグレードの失敗
- インプレース アップグレードのタイムアウト
- Docker レジストリの移行が PVC の削除段階でスタックする
- v2023.10 以降へのアップグレード後に AI Center のプロビジョニングが失敗する
- オフライン環境でアップグレードが失敗する
- アップグレード中に SQL の検証が失敗する
- アップグレード後に snapshot-controller-crds ポッドが CrashLoopBackOff ステートになる
- Insights の PVC サイズが上書きされたためにアップグレードが失敗する
- Automation Suite 2024.10.1 にアップグレードできない
- Velero の移行の問題によりアップグレードが失敗する
- rook-ceph アプリケーションの削除でアップグレードがスタックする
- 管理ポータルのタイムアウト期間を設定する
- 移行後に認証が機能しない
- Kinit: Cannot find KDC for realm <AD Domain> while getting initial credentials
- kinit: Keytab contains no suitable keys for *** while getting initial credentials
- 無効なステータス コードが原因で GSSAPI 操作が失敗した
- Alarm received for failed kerberos-tgt-update job
- SSPI Provider: Server not found in Kerberos database
- アカウントが無効なため AD ユーザーのログインに失敗した
- ArgoCD へのログインに失敗した
- 基になるディレクトリ接続を更新する
- ロボットが Automation Suite の Orchestrator インスタンスに接続できない
- Automation Suite 2024.10.0 でバックアップの復元に部分的に失敗する
- サンドボックス イメージを取得できない
- ポッドが ArgoCD UI に表示されない
- FQDN にアクセスすると RBAC アクセス拒否エラーが返されます
- Redis プローブの障害
- RKE2 サーバーの起動に失敗する
- UiPath 名前空間でシークレットが見つからない
- 初回インストール後に ArgoCD が進行中ステートになる
- Init:0/X でポッドがスタックする
- Ceph-rook のメトリックが監視ダッシュボードに表示されない
- 診断ヘルスチェック中に報告されたエラーの不一致
- アップストリームに正常な問題はありません
- プロキシ設定でログ ストリーミングが機能しない
- オフライン環境でエージェント ノードを追加できない
- サイズの大きい Document Understanding バンドルのアップロード中にノードが応答しなくなる (OOM)
- バックアップ操作が [部分的に失敗] ステータスで失敗する
- Process Mining で高可用性を実行する
- Kerberos を使用してログインすると、Process Mining を取り込むことができなかった
- 障害復旧後、Dapr が Process Mining に対して正しく機能しない
- pyodbc 形式の接続文字列を使用して AutomationSuite_ProcessMining_Warehouse データベースに接続できない
- Airflow のインストールが「sqlalchemy.exc.ArgumentError: Could not parse rfc1738 URL from string ''」で失敗する
- SQL Server ポート 1433 を使用する IP テーブル ルールを追加する方法
- CData Sync を実行しているサーバーの Automation Suite の証明書が信頼されない
- 診断ツールを実行する
- Automation Suite サポート バンドルを使用する
- ログを確認する
- 要約されたテレメトリを確認する

Linux の Automation Suite のインストール ガイド
ストレージ アラート
kubernetes-system
KubernetesDiskPressure
このアラートは、Kubernetes ノードでのディスクの使用量が非常に高いことを示しています。
このアラートが発生した場合は、どのポッドがより多くのディスクを消費しているかを確認してみてください。
-
次のコマンドを使用して、ノードが
DiskPressure状態にあるかどうかを確認します。kubectl describe node <node-name>kubectl describe node <node-name>出力の
DiskPressure条件を特定します。 -
影響を受けるノードのディスク領域の使用状況を確認します。
df -hdf -hこれは、マウントされているすべてのファイルシステムのディスク使用量を示します。 使用率が高い場所を特定します。
-
ディスクがいっぱいでクリーンアップが不十分な場合は、ノードのディスクのサイズを変更することを検討してください (特に AWS や GCP などのクラウド環境の場合)。 このプロセスでは、インフラストラクチャによってはボリュームの拡張が必要になる場合があります。
KubernetesMemoryPressure
このアラートは、Kubernetes ノードでのメモリ使用量が非常に高いことを示しています。
インシデントの種類 MemoryPressure Kubernetes ノードは、Kubernetes クラスター ノードのメモリが不足している場合に発生し、アプリケーションのメモリ リークが原因である可能性があります。 この種類のインシデントでは、ダウンタイムを防ぎ、Kubernetes クラスターが適切に機能するように、早急な対応が必要です。
このアラートが発生した場合は、以下の手順を実行して、より多くのメモリを消費しているノード上のポッドを特定してみてください。
-
ノードの CPU とメモリの統計情報を取得します。
kubectl top nodekubectl top node -
ノードで実行されているポッドを取得します。
kubectl get pods --all-namespaces -o wide --field-selector spec.nodeName=${NODE_NAME}kubectl get pods --all-namespaces -o wide --field-selector spec.nodeName=${NODE_NAME} -
名前空間内のポッドのメモリ使用量を確認するには、以下を使用します。
kubectl top pod --namespace <namespace> kubectl logs -f <pod-name> -n <ns>kubectl top pod --namespace <namespace> kubectl logs -f <pod-name> -n <ns>
メモリ使用量が多いポッドを特定できる場合は、そのポッドのログをチェックして、メモリ リーク エラーを探します。
この問題を解決するには、可能であればノードのメモリ仕様を増やします。
問題が解決しない場合は、 サポート バンドル を生成して UiPath® サポートにお問い合わせください。
KubePersistentVolumeFillingUp
Warning の場合: 利用可能な領域が 30% を下回っており、4 日以内に満杯になる可能性があります。
Critical の場合: 利用可能な領域が 10% を下回っています。
サービスで領域を使い果たした場合、データの復元が困難になる可能性があります。したがって、利用可能な領域が 0% に達する前にボリュームのサイズを変更する必要があります。
手順については、「 クラスターを構成する」をご覧ください。
Prometheus 固有のアラートに関する詳細と手順については、「 PrometheusStorageUsage 」をご覧ください。
KubePersistentVolumeErrors
PersistentVolume をプロビジョニングできません。これは、ボリュームを必要とするサービスが開始されないことを意味します。Longhorn や Ceph のストレージでその他のエラーが発生していないかご確認のうえ、UiPath® サポートにお問い合わせください。
node-exporter
NodeFilesystemSpaceFillingUp
特定のノードのファイルシステムが満杯になりつつあります。
このアラートが発生した場合は、以下の手順を検討してください。
-
次のコマンドを使用して、ノードが
DiskPressure状態にあるかどうかを確認します。kubectl describe node <node-name>kubectl describe node <node-name>出力の
DiskPressure条件を特定します。 -
ログと一時ファイルをクリアします。
/var/log/内の大きなログ ファイルを確認し、可能であればクリーンアップします。 -
影響を受けるノードのディスク領域の使用状況を確認します。
df -hdf -hこれは、マウントされているすべてのファイルシステムのディスク使用量を示します。 使用率が高い場所を特定します。
-
ディスクがいっぱいでクリーンアップが不十分な場合は、ノードのディスクのサイズを変更することを検討してください (特に AWS や GCP などのクラウド環境の場合)。 このプロセスでは、インフラストラクチャによってはボリュームの拡張が必要になる場合があります。
NodeFilesystemAlmostOutOfSpace
特定のノードのファイルシステムが満杯になりつつあります。ディスクを追加するか未使用のディスクをマウントすることによって、さらに多くの領域をプロビジョニングします。
NodeFilesystemFilesFillingUp
特定のノードのファイルシステムが満杯になりつつあります。ディスクを追加するか未使用のディスクをマウントすることによって、さらに多くの領域をプロビジョニングします。
NodeFilesystemAlmostOutOfFiles
特定のノードのファイルシステムが満杯になりつつあります。ディスクを追加するか未使用のディスクをマウントすることによって、さらに多くの領域をプロビジョニングします。
NodeNetworkReceiveErrs
これらのエラーは、ネットワーク ドライバーが多数のエラーを報告していることを示しています。 これは、物理的なハードウェア障害、または物理ネットワークの設定ミスが原因である可能性があります。 この問題は OS に関連し、UiPath® アプリケーションでは制御できません。
このアラートは、Linux カーネルが提供する/proc/net/dev カウンターを監視することによってトリガーされます。
ネットワーク管理者および物理インフラストラクチャを管理するチームに連絡してください。
NodeNetworkTransmitErrs
これらのエラーは、ネットワーク ドライバーが多数のエラーを報告していることを示しています。 これは、物理的なハードウェア障害、または物理ネットワークの設定ミスが原因である可能性があります。 この問題は OS に関連し、UiPath® アプリケーションでは制御できません。
このアラートは、Linux カーネルが提供する/proc/net/dev カウンターを監視することによってトリガーされます。
ネットワーク管理者および物理インフラストラクチャを管理するチームに連絡してください。
ceph.rules、cluster-state-alert.rules
CephClusterErrorState
このアラートは、Ceph ストレージ クラスターが 10 分を超えてエラー ステートにあることを示します。
このアラートは、 rook-ceph-mgr ジョブが許容できない時間エラー ステートにあることを示しています。このアラートよりも前にトリガーされた可能性がある他のアラートがないか確認し、それらのアラートを先にトラブル―シューティングしてください。
kubectl describe cephcluster -n rook-ceph
kubectl describe cephcluster -n rook-ceph
CephMonQuorumAtRisk
このアラートは、ストレージ クラスターのクォーラムが少ないことを示します。
複数の Monitor が連携して動作し冗長性を確保します。これが可能なのは、各 Monitor がメタデータのコピーを保持しているためです。クラスターは 3 つの Monitor でデプロイされ、クォーラムのとストレージ操作を実行するには、2 つ以上の Monitor が実行されている必要があります。クォーラムが失われた場合、データへのアクセスが失われる可能性があります。
このアラートが発生した場合は、終了ステートにある OSD があるかどうかを確認し、そうである場合は、そのポッドを強制的に削除し、演算子が調整を行うまでしばらく待ちます。問題が解決しない場合は UiPath® サポートにお問い合わせください。
CephMgrIsAbsent (英語)
このアラートは、Ceph Manager が Prometheus ターゲットの検出から消滅したことを示します。
このアラートが発生した場合は、Ceph Manager ポッドが起動して実行されており、正常であることを確認してください。 ポッドが正常な場合は、ログを確認し、ポッドで Prometheus メトリックの出力が有効になっているかどうかを確認します。
CephNodeDown
このアラートは、Ceph ポッドを実行しているノードが停止していることを示します。 Ceph はノードの障害に対処するように設計されているため、ストレージ操作は引き続き機能しますが、別のノードがダウンしてストレージ機能に影響を与えるリスクを最小限に抑えるために、この問題を解決することをお勧めします。
このアラートが発生した場合、マルチノード クラスターの場合は、ポッドを別のノードでスケジュールする必要があります。 rook-ceph名前空間の新しい osd ポッドが新しいノードで実行中で正常な状態であることを確認します。
次のコマンドを使用してノードを記述することで、ノードの障害を確認できます。
kubectl get nodes
kubectl get nodes
ノードを確認して問題の根本原因を特定し、UiPath® サポートにお問い合わせください。
cluster-utilization-alert.rules
CephClusterNearFull
このアラートは、Ceph ストレージ クラスターの使用状況が 75% を超えたこと、ならびに 85% に到達すると読み取り専用になることを示します。
このアラートが発生した場合は、AI Center または Task Mining の未使用のデータセットを削除して Ceph 内の一部の領域を解放するか Ceph PVC で利用可能なストレージを拡張します。
PVC のサイズを変更する前に、ストレージ要件を満たしていることを確認してください。詳しくは、「 必要なストレージを評価する」をご覧ください。
CephClusterCriticallyFull
このアラートは、Ceph ストレージ クラスターの使用状況が 80% を超えたこと、ならびに 85% に到達すると読み取り専用になることを示します。
このアラートが発生した場合は、AI Center または Task Mining の未使用のデータセットを削除して Ceph 内の一部の領域を解放するか Ceph PVC で利用可能なストレージを拡張します。
PVC のサイズを変更する前に、ストレージ要件を満たしていることを確認してください。詳しくは、「 必要なストレージを評価する」をご覧ください。
CephClusterReadOnly
このアラートは、Ceph ストレージ クラスターの使用状況が 85% を超えたため、これより読み取り専用になることを示します。いくつかの領域を解放するか、ストレージ クラスターを直ちに拡張してください。
このアラートが発生した場合は、AI Center または Task Mining の未使用のデータセットを削除して Ceph 内の一部の領域を解放するか Ceph PVC で利用可能なストレージを拡張します。
PVC のサイズを変更する前に、ストレージ要件を満たしていることを確認してください。詳しくは、「 必要なストレージを評価する」をご覧ください。
osd-alert.rules
CephOSDCriticallyFull
アラートの重要度が Critical の場合、利用可能な領域は 20% を下回っています。
サービスで領域を使い果たした場合、データの復元が困難になる可能性があります。したがって、利用可能な領域が 10% に達する前にボリュームのサイズを変更する必要があります。手順については「クラスターを構成する」をご覧ください。
CephOSDNearFull
このアラートは、Ceph ストレージ クラスターの使用状況が 75% を超えたこと、ならびに 85% に到達すると読み取り専用になることを示します。
このアラートが発生した場合は、AI Center または Task Mining の未使用のデータセットを削除して Ceph 内の一部の領域を解放するか Ceph PVC で利用可能なストレージを拡張します。
PVC のサイズを変更する前に、ストレージ要件を満たしていることを確認してください。詳しくは、「 必要なストレージを評価する」をご覧ください。
PersistentVolumeUsageNearFull
このアラートは、Ceph ストレージ クラスターの使用状況が 75% を超えたこと、ならびに 85% に到達すると読み取り専用になることを示します。
このアラートが発生した場合は、AI Center または Task Mining の未使用のデータセットを削除して Ceph 内の一部の領域を解放するか Ceph PVC で利用可能なストレージを拡張します。
PVC のサイズを変更する前に、ストレージ要件を満たしていることを確認してください。詳しくは、「 必要なストレージを評価する」をご覧ください。
CephOSDフラッピング
このアラートは、ストレージ デーモンが過去 5 分間に 5 回以上再起動したことを示します。
このアラートが発生した場合は、以下の手順を実行します。
-
Ceph クラスターの健全性を確認します。 Yuoは、Cephツールボックスで
ceph statusを実行して、フラッピングしているOSDを特定する必要があります。kubectl -n rook-ceph exec -it <ceph-tools-pod> -- ceph statuskubectl -n rook-ceph exec -it <ceph-tools-pod> -- ceph statusCeph ツール ポッドは、名前空間 内のポッドを一覧表示することで識別できます。
kubectl -n rook-ceph get pod | grep toolskubectl -n rook-ceph get pod | grep tools -
OSD ログでフラッピングしている OSD ポッドを確認して、問題を特定します。
kubectl -n rook-ceph logs <osd-pod>kubectl -n rook-ceph logs <osd-pod> -
ノード レベルの問題を特定します。
-
リソースの使用状況を確認します。
kubectl top node <node-name>kubectl top node <node-name> -
ディスクの状態を確認します。 ノードに SSH で接続し、
df -hとdmesgを実行してディスク エラーを確認する必要があります。
-
-
OSD ポッドを再起動します。 問題が一時的なものである場合は、フラッピングしている OSD ポッドを再起動する必要があります。
kubectl -n rook-ceph delete pod <osd-pod>kubectl -n rook-ceph delete pod <osd-pod> -
OSDとCephモニターの間にネットワーク接続の問題がないことを確認します。
-
必要に応じて、フラッピングしているOSDを一時的にマークします
outceph osd out <osd-id>ceph osd out <osd-id> -
クラスターの監視を続行して、問題が再発しないようにします。
CephOSDDiskNotResponding(CephOSDDiskNotResponding)
このアラートは、ホスト・ディスク・デバイスが応答していないことを示します。
このアラートが発生した場合は、以下の手順を実行します。
-
Ceph クラスターのステータスを確認します。 Ceph クラスターの全体的な正常性を確認し、OSD ステータスの詳細を取得する必要があります。
-
Ceph ツールボックス ポッド内で次のコマンドを実行します。
kubectl -n rook-ceph exec -it <ceph-tools-pod> -- ceph statuskubectl -n rook-ceph exec -it <ceph-tools-pod> -- ceph status -
名前空間 内のポッドをリストして、Ceph ツール ポッドを特定します。
kubectl -n rook-ceph get pod | grep toolskubectl -n rook-ceph get pod | grep tools
-
-
OSD ポッドのステータスを確認します。 OSD ポッドが実行されているかどうかを確認する必要があります。 次のコマンドを実行して、すべての OSD ポッドのステータスを確認します。
kubectl -n rook-ceph get pods | grep osdkubectl -n rook-ceph get pods | grep osdいずれかの OSD ポッドが
CrashLoopBackOff状態またはPending状態にある場合は、OSD ディスクまたは基になるノードに問題があることを示している可能性があります。 -
影響を受ける OSD ポッドを再起動します。 OSD ポッドが不正なステート (
CrashLoopBackOff、Errorなど) の場合は、ポッドを再起動して、問題が自然に解決するかどうかを確認する必要があります。 Kubernetes は自動的にポッドの再スケジュールを試みます。kubectl -n rook-ceph delete pod <osd-pod>kubectl -n rook-ceph delete pod <osd-pod>OSDポッドが再起動され、一時的な問題の場合は、これで解決する可能性があります。
-
OSDログを確認します。 再起動しても問題が解決しない場合は、OSD ポッド ログで、ディスクが応答しない理由の詳細を確認します。
kubectl -n rook-ceph logs <osd-pod>kubectl -n rook-ceph logs <osd-pod>ディスク関連のエラーやその他の問題(I/Oエラー、マウントの失敗など)を探します。
-
ノード レベルの問題を特定します。 OSDディスクが正しくマウントされていないか、切断されている場合は、影響を受けるノードにログインして、ディスクのマウントステータスを確認できます。
ssh <node> df -hssh <node> df -hCeph が予期しているディスクが見つからないか、マウントされていないディスクを探します。 必要に応じて、ディスクを再マウントするか、ディスクに障害が発生した場合は交換します。
CephOSDDisk利用不可
このアラートは、Ceph OSDディスクがホスト上でアクセスできないことを示します。
このアラートが発生した場合は、以下の手順を実行します。
-
Ceph クラスターのステータスを確認します。 Ceph クラスターの全体的な正常性を確認し、OSD ステータスの詳細を取得する必要があります。
-
Ceph ツールボックス ポッド内で次のコマンドを実行します。
kubectl -n rook-ceph exec -it <ceph-tools-pod> -- ceph statuskubectl -n rook-ceph exec -it <ceph-tools-pod> -- ceph status -
名前空間 内のポッドをリストして、Ceph ツール ポッドを特定します。
kubectl -n rook-ceph get pod | grep toolskubectl -n rook-ceph get pod | grep tools
-
-
OSD ポッドのステータスを確認します。 OSD ポッドが実行されているかどうかを確認する必要があります。 次のコマンドを実行して、すべての OSD ポッドのステータスを確認します。
kubectl -n rook-ceph get pods | grep osdkubectl -n rook-ceph get pods | grep osdいずれかの OSD ポッドが
CrashLoopBackOff状態またはPending状態にある場合は、OSD ディスクまたは基になるノードに問題があることを示している可能性があります。 -
影響を受ける OSD ポッドを再起動します。 OSD ポッドが不正なステート (
CrashLoopBackOff、Errorなど) の場合は、ポッドを再起動して、問題が自然に解決するかどうかを確認する必要があります。 Kubernetes は自動的にポッドの再スケジュールを試みます。kubectl -n rook-ceph delete pod <osd-pod>kubectl -n rook-ceph delete pod <osd-pod>OSDポッドが再起動され、一時的な問題の場合は、これで解決する可能性があります。
-
OSDログを確認します。 再起動しても問題が解決しない場合は、OSD ポッド ログで、ディスクが応答しない理由の詳細を確認します。
kubectl -n rook-ceph logs <osd-pod>kubectl -n rook-ceph logs <osd-pod>ディスク関連のエラーやその他の問題(I/Oエラー、マウントの失敗など)を探します。
persistent-volume-alert.rules
PersistentVolumeUsageCritical
このアラートが発生した場合は、AI Center または Task Mining の未使用のデータセットを削除して Ceph 内の一部の領域を解放するか Ceph PVC で利用可能なストレージを拡張します。
PVC のサイズを変更する前に、ストレージ要件を満たしていることを確認してください。詳しくは、「 必要なストレージを評価する」をご覧ください。
pool-quota.rules
CephPoolQuotaBytesCriticallyExhausted
このアラートは、Ceph のストレージ プールの使用量が 90% を超えたことを示します。
このアラートが発生した場合は、AI Center または Task Mining の未使用のデータセットを削除して CEPH 内の一部の領域を解放するか Ceph PVC で利用可能なストレージを拡張します。
PVC のサイズを変更する前に、ストレージ要件を満たしていることを確認してください。詳しくは、「 必要なストレージを評価する」をご覧ください。
host-disk
LowDiskForRancherPartition
このアラートは、 /var/lib/rancher パーティションの空き領域が次の割合より少ないことを示します。
- 25% - アラートの重要度は「重大」です
ホストサーバーにログインし、ディスクの使用状況を確認する必要があります。 df -h /var/lib/rancher などのコマンドを使用して、使用可能なディスク容量を確認できます。スペースが不足している場合は、次のオプションを検討してください。
-
不要なファイルを消去します。 時間が経つにつれて、ログ ファイル、一時ファイル、孤立したデータ、およびバックアップは、大量の領域を消費する可能性があります。 これらのファイルを定期的にクリーンアップすると、ディスク領域の維持に役立ちます。
-
パーティションのサイズを変更します。 ファイルシステムがサポートしていて、ディスクに未使用の空き領域がある場合は、パーティションのサイズを変更してディスク容量を増やすことができます。
-
ディスク容量を追加します。 前の手順では不十分で、インフラストラクチャで許可されている場合は、Rancher が適切に機能するようにディスクのサイズを増やします。
-
異常に大きなファイルのストレージ使用量を確認します。
find /var/lib/rancher -type f -exec du -h {} + | sort -rh | head -n 10find /var/lib/rancher -type f -exec du -h {} + | sort -rh | head -n 10 -
巨大なファイルをディスクに書き込んでいるコンテナーがないか確認します。
LowDiskForKubeletPartition
このアラートは、 /var/lib/kubelet パーティションの空き領域が次の割合より少ないことを示します。
- 25% - アラートの重要度は「重大」です
このアラートが発生した場合は、ディスクの容量を増やしてください。
LowDiskForVarPartition
このアラートは、 /var パーティションの空き領域が次の割合より少ないことを示します。
- 25% - アラートの重要度は「重大」です
注:
これは、コンテナー システム ログの蓄積が原因で発生する可能性があります。
このアラートが発生した場合は、以下の手順を実行します。
-
ストレージの使用状況を確認します。
find /var/ -type f -exec du -h {} + | sort -rh | head -n 10find /var/ -type f -exec du -h {} + | sort -rh | head -n 10 -
ディスクのサイズを増やします。
LowDiskForVarLogPartition
このアラートは、 /var/lib/var パーティションの空き領域が次の割合より少ないことを示します。
- 25% - アラートの重要度は「重大」です
このアラートが発生した場合は、ディスクの容量を増やしてください。
- kubernetes-system
- KubernetesDiskPressure
- KubernetesMemoryPressure
- KubePersistentVolumeFillingUp
- KubePersistentVolumeErrors
- node-exporter
- NodeFilesystemSpaceFillingUp
- NodeFilesystemAlmostOutOfSpace
- NodeFilesystemFilesFillingUp
- NodeFilesystemAlmostOutOfFiles
- NodeNetworkReceiveErrs
- NodeNetworkTransmitErrs
- ceph.rules、cluster-state-alert.rules
- CephClusterErrorState
- CephMonQuorumAtRisk
- CephMgrIsAbsent (英語)
- CephNodeDown
- cluster-utilization-alert.rules
- CephClusterNearFull
- CephClusterCriticallyFull
- CephClusterReadOnly
- osd-alert.rules
- CephOSDCriticallyFull
- CephOSDNearFull
- PersistentVolumeUsageNearFull
- CephOSDフラッピング
- CephOSDDiskNotResponding(CephOSDDiskNotResponding)
- CephOSDDisk利用不可
- persistent-volume-alert.rules
- PersistentVolumeUsageCritical
- pool-quota.rules
- CephPoolQuotaBytesCriticallyExhausted
- host-disk
- LowDiskForRancherPartition
- LowDiskForKubeletPartition
- LowDiskForVarPartition
- LowDiskForVarLogPartition