Automation Suite

2021.10

False

Automation Suite-Installationsanleitung

Letzte Aktualisierung 19. April 2024

Verwendung des Überwachungs-Stacks

Der Überwachungs-Stack für Automation Suite-Cluster umfasst Prometheus, Grafana und Alertmanager, die in der Benutzeroberfläche von Rancher Cluster Explorer integriert sind.

Hinweis:

Knotenfehler können zu einem Herunterfahren von Kubernetes führen, wodurch Prometheus-Warnungen unterbrochen werden. Um das zu verhindern, empfehlen wir die Einrichtung einer separaten Warnung auf dem RKE2-Server.

Auf dieser Seite wird eine Reihe von Überwachungsszenarien beschrieben. Weitere Informationen finden Sie in der offiziellen Rancher-Dokumentation zur Verwendung von Rancher Monitoring.

Wichtig:

Wenn Sie Sammler zum Exportieren von Metriken in Tools von Drittanbietern verwenden, kann die Aktivierung der Anwendungsüberwachung die Funktionalität der Automation Suite beeinträchtigen.

Zugriff auf das Rancher-Überwachungsdashboard

Greifen Sie über https://monitoring.{cluster_host} auf den Rancher Cluster Explorer zu. Wenn das das erste Mal ist, dass Sie eine Verbindung mit dem Rancher Server herstellen, sieht die Anzeige anders aus.
Geben Sie das Kennwort ein. Das Kennwort ist in beiden Fällen gleich. Es kann mit dem folgenden Befehl abgerufen werden:
```
kubectl get secret -n cattle-system rancher-admin-password -o jsonpath='{.data.password}' | base64 -d && echokubectl get secret -n cattle-system rancher-admin-password -o jsonpath='{.data.password}' | base64 -d && echo
```
Öffnen Sie den Cluster Explorer, indem Sie auf den local Link auf der Hauptseite des Rancher-Servers klicken.
Klicken Sie auf das Menü Monitoring in der Seitenleiste.

Überprüfen aktuell ausgelöster Warnungen

Überprüfen Sie im Dashboard Monitoring den unteren Bereich auf aktuelle Warnungen. Die folgenden Screenshots zeigen mehrere aktuell ausgelöste Warnungen.

Stummschalten von Warnungen

Wenn Warnungen zu laut sind, können Sie sie stumm schalten. Führen Sie dazu die folgenden Schritte aus:

Klicken Sie auf die Kachel Alertmanager in der oberen linken Ecke des Dashboards Monitoring. Die folgende Meldung wird angezeigt.
Suchen Sie die betreffende Warnung und wählen Sie Silence aus.
Geben Sie die Angaben zum Creator und Comment ein und klicken Sie zum Erstellen auf Create. Die Warnung sollte nicht mehr im Dashboard Monitoring angezeigt oder einem der konfigurierten Empfänger gemeldet werden.

Senden von Warnungen an einen externen Empfänger

Es wird dringend empfohlen, einen externen Empfänger für Warnungen einzurichten. Auf diese Weise werden Warnungen während ihrer Ausführung gepusht, ohne dass Dashboard Monitoring aktualisiert werden muss, um die neuesten Warnungen anzuzeigen.

Weitere Informationen zum Senden von Warnungen an einen externen Empfänger finden Sie in der Rancher-Dokumentation unter Alertmanager Receiver Configuration.

Zusätzlich zu einem Empfänger müssen Sie mindestens einen Weg konfigurieren, der den Empfänger verwendet. Eine Route definiert, wie Warnungen gruppiert werden und welche Warnungen an den Empfänger gesendet werden. Weitere Informationen finden Sie in der Rancher-Dokumentation zur Alertmanager Route Configuration.

Nachfolgend finden Sie ein Beispiel dafür, wie die Warnungen angezeigt werden, wenn der Slack-Empfänger verwendet wird. Wenn Sie auf den Link zu AlertManager klicken, gelangen Sie zur AlertManager-Konsole, auf der Warnungen stumm geschaltet werden können und es weitere Links zum Prometheus-Ausdruck gibt, der die Warnung ausgelöst hat. Wenn Sie auf die Runbook-URL klicken, gelangen Sie auf diese Seite mit speziellen Lösungsschritten. Diese Links sind auch dann vorhanden, wenn Warnungen an andere externe Empfänger gesendet werden.

Zugriff auf das Grafana-Dashboard

Klicken Sie im Dashboard Monitoring auf die Grafana-Kachel. Das Dashboard Grafana wird nun angezeigt.

Überwachen des Dienstgeflechts

Sie können das Istio Service Mesh über die folgenden Grafana-Dashboards überwachen: Istio Mesh und Istio Workload.

Istio Mesh-Dashboard

Dieses Dashboard zeigt das gesamte Anforderungsvolumen sowie die Häufigkeit von 400er und 500er Fehlern im gesamten Dienstgeflecht für den ausgewählten Zeitraum an. Die Daten werden in der oberen rechten Ecke des Fensters angezeigt. Diese Informationen finden Sie in den 4 Diagrammen oben.

Es zeigt auch die sofortige Erfolgsquote („Success Rate“) in den letzten Minuten für jeden einzelnen Dienst an. Beachten Sie, dass eine Success Rate von NaN angibt, dass der Dienst derzeit keinen Datenverkehr leistet.

Istio-Workload-Dashboard

Dieses Dashboard zeigt die Datenverkehrsmetriken über den ausgewählten Zeitbereich in der oberen rechten Ecke des Fensters an.

Verwenden Sie die Selektoren oben im Dashboard, um bei bestimmten Workloads einen Drilldown durchzuführen. Von besonderem Interesse ist der Namespace uipath.

Im oberen Abschnitt werden die Gesamtmetriken angezeigt, im Abschnitt Inbound Workloads wird der Datenverkehr basierend auf der Herkunft dargestellt und im Abschnitt Outbound Services wird Datenverkehr basierend auf dem Ziel dargestellt.

Überwachung persistenter Volumes

Sie können persistente Volumes über das Dashboard Kubernetes/Persistent Volumes überwachen. Sie können den freien und genutzten Platz für jedes Volume nachverfolgen.

Sie können auch den Status jedes Volumes überprüfen, indem Sie im Menü Storage des Cluster Explorer auf das Element PersistentVolumes klicken.

Überwachung der Hardwarenutzung

Um die Hardwarenutzung pro Knoten zu überprüfen, können Sie das Dashboard Nodes verwenden. Angaben zu CPU, Arbeitsspeicher, Datenträger und Netzwerk können angezeigt werden.

Sie können die Hardwarenutzung für bestimmte Workloads mithilfe des Dashboards Kubernetes / Compute Resources / Namespace (Workloads) überwachen. Wählen Sie den Namespace uipath aus, um die erforderlichen Daten abzurufen.

Erstellen einer gemeinsam nutzbaren visuellen Momentaufnahme eines Grafana-Diagramms

Klicken Sie auf den abwärts zeigenden Pfeil neben dem Diagrammtitel und wählen Sie dann Share aus.
Klicken Sie auf die Registerkarte Snapshot und legen Sie den Namen für Momentaufnahme Snapshot name, das Ablaufdatum Expire und Timeout fest.
Klicken Sie auf Veröffentlichen in snapshot.raintank.io.

Weitere Informationen finden Sie in der Grafana-Dokumentation zum Freigeben von Dashboards.

Hinweis: Dieser Snapshot ist für jeden mit dem Link im Internet öffentlich sichtbar.

Erstellen benutzerdefinierter persistenter Grafana-Dashboards

Weitere Informationen zum Erstellen benutzerdefinierter persistenter Grafana-Dashboards finden Sie in der Rancher-Dokumentation.

Administratorzugriff auf Grafana

Administratorzugriff auf Grafana wird in der Regel nicht in Automation Suite-Clustern benötigt, da anonyme Benutzer standardmäßig Lesezugriff auf Dashboards haben und benutzerdefinierte persistente Dashboards anhand der oben in diesem Dokument verknüpften speziellen Kubernetes-Anweisungen erstellt werden müssen.

Dennoch ist der Administratorzugriff auf Grafana mit den nachfolgenden Schritten möglich.

Der Standardbenutzername und das Kennwort für den Grafana-Administratorzugriff können wie folgt abgerufen werden:

kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-user}' | base64 -d && echo
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-password}' | base64 -d && echokubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-user}' | base64 -d && echo
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-password}' | base64 -d && echo

Beachten Sie, dass in Automation Suite-Clustern mit Hochverfügbarkeit mehrere Grafana-Pods vorhanden sind, um im Falle eines Knotenfehlers einen unterbrechungsfreien Lesezugriff sowie mehr Leseabfragen zu ermöglichen. Dies ist nicht mit dem Administratorzugriff kompatibel, da die Pods den Sitzungsstatus nicht freigeben und die Anmeldung dies erfordert. Um dies zu umgehen, muss die Anzahl der Grafana-Replikate vorübergehend auf 1 skaliert werden, solange der Administratorzugriff gewünscht wird. Nachfolgend finden Sie Anweisungen zum Skalieren der Anzahl der Grafana-Replikate:

# scale down
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=1
# scale up
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=2# scale down
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=1
# scale up
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=2

Abfragen von Prometheus

Klicken Sie im Monitoring Dashboard auf Prometheus-Diagramm. Das neue Fenster wird angezeigt.

Die Dokumentation zu den verfügbaren Metriken finden Sie hier:

Erstellen benutzerdefinierter Warnungen

Sie können benutzerdefinierte Warnungen mithilfe einer Prometheus-Abfrage mit einem booleschen Ausdruck erstellen.

Klicken Sie dazu im Menü Erweitert des Monitoring Dashboard auf Prometheus Rules.
Klicken Sie auf Erstellen in der oberen rechten Ecke des Fensters, um eine neue Warnung zu erstellen, und folgen Sie der Rancher-Dokumentation: PrometheusRules
Wenn die Warnung ausgelöst wird, sollte sie im Monitoring Dashboard angezeigt werden. Darüber hinaus wird er an einen beliebigen konfigurierten Receiver weitergeleitet.

Überwachung des Kubernetes-Ressourcenstatus

Um den Status von Pods, Bereitstellungen, StatefulSets usw. zu sehen, können Sie die Benutzeroberfläche des Cluster Explorers verwenden. Dies ist die gleiche Landing-Page wie die, die nach der Anmeldung beim Rancher-Server-Endpunkt aufgerufen wird. Die Startseite zeigt eine Zusammenfassung mit Drilldowns in bestimmte Details für jeden Ressourcentyp auf der linken Seite. Beachten Sie den Namespace-Selektor oben auf der Seite. Dieses Dashboard kann auch durch das Tool „Lens“ ersetzt werden.

Exportieren von Prometheus-Metriken in ein externes System

Prometheus verwendet die Remote-Write-Funktion von Prometheus, um Prometheus-Metriken zu sammeln und in ein externes System zu exportieren.

Hinweis: UiPath unterstützt und pflegt die Remote-Write-Endpunkt-Integrationen nicht. Die Endpunkte sind jedoch mit der in der Automation Suite bereitgestellten Prometheus-Instanz kompatibel.

Zum Konfigurieren von remote_write auf einem Automation Suite-Cluster:

Stellen Sie eine Verbindung mit ArgoCD her.
Klicken Sie auf Anwendungen.
Navigieren Sie zu Fabric-Installer.
Öffnen Sie das Panel APP-DETAILS und deaktivieren Sie die Selbstreparatur.
Navigieren Sie zur Anwendung rancher-monitoring.
Öffnen Sie das Panel APP DETAILS > Registerkarte MANIFEST.
Klicken Sie auf EDIT und gehen Sie zu values > prometheus > Abschnitt PrometheusSpec.
Fügen Sie die gewünschten remoteWrite-Konfigurationen hinzu.

Entdecken Sie die verfügbaren Konfigurationen für die Remote-Write-Funktion.
Speichern Sie die neue Konfiguration mit SAVE. Die Anwendung rancher-monitoring zeigt OutOfSync an, bis die neue Konfiguration angewendet wird.

Hinweis: Prometheus muss nicht neu gestartet werden, um die neuen Remote-Write-Konfigurationen anzuwenden.
Testen Sie die gewünschte Remote-Write-Integration. Kehren Sie zu Schritt 8 zurück, um eine neue Konfiguration hinzuzufügen.