- 概述
- 要求
- 安装
- 安装后
- 集群管理
- 监控和警示
- 使用监控堆栈
- 警示 runbook
- 迁移和升级
- 特定于产品的配置
- 最佳实践和维护
- 故障排除

Automation Suite 安装指南
|
警示严重性 |
描述 |
|---|---|
|
信息 | 意外但无害。可以静默,但在诊断期间可能有用。 |
|
Warning | 表明功能有针对性地降级或在不久的将来可能降级,这可能会影响整个集群。建议迅速采取行动(通常在几天内),以保持集群的正常运行。 |
|
重要事项 | 已知会导致集群中普遍存在的功能严重降级。需要立即采取行动(当天)修复集群。 |
TargetDown
Prometheus 无法从警示中的目标收集指标,这意味着 Grafana 仪表板和基于该目标的指标的进一步警示不可用。检查与该目标相关的其他警示。
Watchdog
这是一个警示,用于确保整个警示管道正常运行。此警示始终处于触发状态。因此,它应始终在“警示管理器”中针对接收器触发。有各种通知机制的集成,可在此警示未触发时通知您。例如,PagerDuty 中的 DeadMansSnitch 集成。
KubePodCrashLooping
kubectl describe 检查 Pod 事件,并使用 kubectl logs 检查日志,以查看有关可能崩溃的详细信息。如果问题仍然存在,请联系 UiPath™ 支持团队。
KubePodNotReady
kubectl logs 检查 Pod 日志,以查看是否有任何进度指示。如果问题仍然存在,请联系 UiPath™ 支持团队。
KubeDeploymentGenerationMismatch, KubeStatefulSetGenerationMismatch
已尝试对部署或状态副本集进行更新,但失败了,并且尚未发生回滚。请联系 UiPath™ 支持团队。
KubeDeploymentReplicasMismatch, KubeStatefulSetReplicasMismatch
在具有多个副本的高可用性集群中,当副本数量不是最佳时,将触发此警示。当集群中没有足够的资源进行计划时,可能会发生这种情况。检查资源利用率,并根据需要添加容量。否则,请联系 UiPath™ 支持团队。
KubeStatefulSetUpdateNotRolledOut
状态副本集更新失败。请联系 UiPath™ 支持团队。
另请参阅:有状态副本集。
KubeDaemonSetRolloutStuck
守护程序集推出失败。请联系 UiPath™ 支持团队。
另请参阅:守护程序集。
KubeContainerWaiting
kubectl describe 以获取更多信息。等待容器的最常见原因是拉取映像失败。对于离线集群,这可能意味着本地注册表不可用。如果问题仍然存在,请联系 UiPath™ 支持团队。
KubeDaemonSetNotScheduled, KubeDaemonSetMisScheduled
这可能表明其中一个节点存在问题,检查每个节点的运行状况,并修复任何已知问题。否则,请联系 UiPath™ 支持团队。
KubeJobCompletion
完成一项作业需要超过 12 个小时。这不是预期的。请联系 UiPath™ 支持团队。
KubeJobFailed
作业失败;但是,大多数作业都会自动重试。如果问题仍然存在,请联系 UiPath™ 支持团队。
KubeHpaReplicasMismatch
自动调节程序无法按配置扩展目标资源。如果期望值高于实际值,则可能是资源不足。如果期望值低于实际值,则 Pod 可能会在关闭时卡住。如果问题仍然存在,请联系 UiPath™ 支持团队。
另请参阅:水平 Pod 自动调节
KubeHpaMaxedOut
给定服务的副本数量已达到最大值。当对集群发出的请求数量非常多时,就会发生这种情况。如果预计会有暂时的高流量,您可以静默此警示。但是,此警示表示集群已满,无法处理更多流量。如果集群上有更多资源容量可用,您可以按照以下说明增加服务的最大副本数:
# Find the horizontal autoscaler that controls the replicas of the desired resource
kubectl get hpa -A
# Increase the number of max replicas of the desired resource, replacing <namespace> <resource> and <maxReplicas>
kubectl -n <namespace> patch hpa <resource> --patch '{"spec":{"maxReplicas":<maxReplicas>}}'# Find the horizontal autoscaler that controls the replicas of the desired resource
kubectl get hpa -A
# Increase the number of max replicas of the desired resource, replacing <namespace> <resource> and <maxReplicas>
kubectl -n <namespace> patch hpa <resource> --patch '{"spec":{"maxReplicas":<maxReplicas>}}'另请参阅:水平 Pod 自动调节。
KubeCPUOvercommit, KubeMemoryOvercommit
这些警告表明集群不能容忍节点故障。对于单节点评估集群,这是已知的,并且系统可能会静默这些警示。对于多节点 HA 就绪生产设置,当太多节点运行状况不佳而无法支持高可用性时,将触发这些警示,并指示应将节点恢复正常状态或进行更换。
KubeCPUQuotaOvercommit, KubeMemoryQuotaOvercommit, KubeQuotaAlmostFull, KubeQuotaFullyUsed, KubeQuotaExceeded
这些警示与通过自定义添加的命名空间资源配额有关,这些配额仅存在于集群中。命名空间资源配额不会作为 Automation Suite 安装的一部分添加。
另请参阅:资源配额。
CPUThrottlingHigh
已根据配置的限制限制容器的 CPU 利用率。这是 Kubernetes 正常操作的一部分,可能会在触发其他警示时提供有用的信息。您可以静默此警示。
KubePersistentVolumeFillingUp
Warning:可用空间少于 15%,可能会在四天内填满。
Critical:可用空间小于 3%。
对于空间不足的任何服务,数据可能难以恢复,因此应在可用空间达到 0% 之前调整卷的大小。请参阅以下说明:配置集群。
对于特定于 Prometheus 的警示,请参阅 Prometheus 存储 使用情况以获取更多详细信息和说明。
KubePersistentVolumeErrors
无法配置持久卷。这意味着任何需要该卷的服务都不会启动。检查 Longhorn 和/或 Ceph 存储是否存在其他错误,并联系 UiPath™ 支持团队。
KubeStateMetricsListErrors, KubeStateMetricsWatchErrors
Kube 状态指标收集器无法在没有错误的情况下从集群收集指标。这意味着可能不会触发重要的警示。请联系 UiPath™ 支持团队。
另请参阅:发布时的 Kube 状态指标。
KubeClientCertificateExpiration
Warning:用于对 Kubernetes API 服务器进行身份验证的客户端证书将在七天内过期。
Critical:用于对 Kubernetes API 服务器进行身份验证的客户端证书将在一天内过期。
您必须续订证书。
AggregatedAPIErrors, AggregatedAPIDown, KubeAPIDown, KubeAPITerminatedRequests
指示 Kubernetes 控制平面存在问题。检查主节点的运行状况,解决所有未解决的问题,如果问题持续存在,请联系 UiPath 支持团队。
另请参阅:
KubeNodeNotReady, KubeNodeUnreachable, KubeNodeReadinessFlapping, KubeletPlegDurationHigh, KubeletPodStartUpLatencyHigh, KubeletDown
KubeletTooManyPods
指定节点上运行的 Pod 过多。
KubeletClientCertificateExpiration, KubeletServerCertificateExpiration
Warning:Kubelet 的客户端或服务器证书将在七天内过期。
Critical:Kubelet 的客户端或服务器证书将在一天内过期。
您必须续订证书。
KubeletClientCertificateRenewalErrors, KubeletServerCertificateRenewalErrors
Kubelet 无法续订其客户端或服务器证书。请联系 UiPath™ 支持团队。
KubeVersionMismatch
正在运行的 Kubernetes 组件有不同的语义版本。发生这种情况的原因可能是 Kubernetes 升级失败。
KubeClientErrors
Kubernetes API 服务器客户端遇到超过 1% 的错误。运行此客户端的节点或 Kubernetes API 服务器本身可能存在问题。
NodeFilesystemSpaceFillingUp、NodeFilesystemAlmostOutOfSpace、NodeFilesystemFilesFillingUp
特定节点上的文件系统正在填满。通过添加磁盘或装载未使用的磁盘来配置更多空间。
NodeRAIDDegraded
由于一个或多个磁盘故障,容错式磁盘阵列处于降级状态。备用驱动器的数量
不足以自动修复问题。
NodeRAIDDiskFailure
需要注意容错式磁盘阵列,可能还需要进行磁盘交换。
NodeNetworkReceiveErrs, NodeNetworkTransmitErrs, NodeHighNumberConntrackEntriesUsed
节点上的物理网络接口有问题。如果问题仍然存在,则可能需要更换。
NodeClockSkewDetected, NodeClockNotSynchronising
节点上的时钟有问题。确保 NTP 配置正确。
PrometheusMemoryUsage, PrometheusStorageUsage
当集群接近配置的内存和存储限制时,这些警示会发出警告。 这可能发生在最近使用量大幅增加的集群上(通常来自机器人而不是用户),或者在未调整 Prometheus 资源的情况下将节点添加到集群中时。 这是因为要收集的指标数量增加。
可以在 Kubernetes/持久卷仪表板上看到存储利用率的提高率:
您可以按照此处的说明,通过调整 PVC 的大小来调整 PVC: 配置集群。
可以在 Kubernetes/计算资源/Pod 仪表板上看到内存利用率的增加率。
您可以通过在 ArgoCD 的 rancher-monitoring 应用程序中编辑 Prometheus 内存资源限制来进行调整。单击“保存”后,rancher-monitoring 应用程序将自动重新同步。
请注意,Prometheus 需要一些时间才能重新启动并再次开始在 Grafana 中显示指标。通常情况下,耗时不到 10 分钟,即使是大型集群也不例外。
AlertmanagerConfigInconsistent
这些是具有多个警示管理器副本的 HA 集群的内部警示管理器错误。警示可能会间歇性地出现和消失。暂时缩小规模,然后扩大警示管理器副本可能会解决此问题。
要解决此问题,请执行以下步骤:
-
缩放至零。请注意,Pod 需要一段时间才能关闭:
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0 -
缩小到 2:
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2 -
检查 Alertmanager Pod 是否已启动以及是否处于正在运行状态:
kubectl get po -n cattle-monitoring-systemkubectl get po -n cattle-monitoring-system
如果问题仍然存在,请联系 UiPath™ 支持团队。
AlertmanagerFailedReload
警示管理器加载或重新加载配置失败。请检查任何自定义警示管理器配置中是否存在输入错误,否则请联系 UiPath™ 支持团队。
PrometheusOperatorListErrors, PrometheusOperatorWatchErrors, PrometheusOperatorSyncFailed, PrometheusOperatorReconcileErrors, PrometheusOperatorNodeLookupErrors, PrometheusOperatorNotReady, PrometheusOperatorRejectedResources
控制 Prometheus 资源的 Prometheus 运算符的内部错误。存在这些错误时,Prometheus 本身可能仍然运行良好;但是,此错误表示监控可配置性下降。请联系 UiPath™ 支持团队。
PrometheusBadConfig
Prometheus 加载或重新加载配置失败。请检查任何自定义 Prometheus 配置是否存在输入错误。否则,请联系 UiPath™ 支持团队。
PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers
从 Prometheus 到警示管理器的连接不正常。指标仍可查询,并且 Grafana 仪表板可能仍会显示指标,但不会触发警示。检查警示管理器的任何自定义配置是否存在输入错误,否则请联系 UiPath™ 支持团队。
PrometheusNotificationQueueRunningFull, PrometheusTSDBReloadsFailing, PrometheusTSDBCompactionsFailing, PrometheusNotIngestingSamples, PrometheusDuplicateTimestamps, PrometheusOutOfOrderTimestamps, PrometheusRemoteStorageFailures, PrometheusRemoteWriteBehind, PrometheusRemoteWriteDesiredShards
表示可能无法按预期收集指标的内部 Prometheus 错误。请联系 UiPath™ 支持团队。
PrometheusRuleFailures
如果存在基于不存在的指标或不正确的 PromQL 语法的格式错误警示,则可能会发生这种情况。如果未添加自定义警示,请联系 UiPath™ 支持团队。
PrometheusMissingRuleEvaluations
Prometheus 无法评估是否应触发警示。如果警示太多,可能会发生这种情况。请删除昂贵的自定义警示评估和/或查看有关增加 Prometheus CPU 限制的文档。如果未添加自定义警示,请联系 UiPath™ 支持团队。
PrometheusTargetLimitHit
Prometheus 要收集的目标过多。如果添加了额外的 ServiceMonitor(请参阅监控控制台),您可以将其删除。
UiPathAvailabilityHighTrafficUserFacing, UiPathAvailabilityHighTrafficBackend, UiPathAvailabilityMediumTrafficUserFacing, UiPathAvailabilityMediumTrafficBackend, UiPathAvailabilityLowTrafficUserFacing, UiPathAvailabilityLowTrafficBackend
来自 UiPath™ 服务的 HTTP 500 响应数量超过给定阈值。
|
流量级别 |
20 分钟内的请求数 |
错误阈值(适用于 HTTP 500) |
|---|---|---|
|
高 |
>100,000 |
0.1% |
|
中 |
10,000 到 100,000 之间 |
1% |
|
低 |
< 10,000 |
5% |
面向用户的服务中的错误可能会导致可在 Automation Suite 用户界面中直接观察到的功能降级,而后端服务中的错误则不会产生明显的后果。
警示会指明哪个服务的错误率较高。要了解报告服务所依赖的其他服务可能存在哪些级联问题,您可以使用 Istio 工作负载仪表板,该仪表板会显示服务之间的错误。
请仔细检查所有最近重新配置的 Automation Suite 产品。还可以使用 kubectl logs 命令获取详细日志。如果错误仍然存在,请联系 UiPath™ 支持团队。
UiPath CronJob“kerberos-tgt-refresh”失败
此作业从 AD Server 获取最新的 Kerberos 票证,以进行 SQL 集成身份验证。此作业失败将导致 SQL Server 身份验证失败。请联系 UiPath™ 支持团队。
UiPath CronJob Kerberos-tgt-secret-update 失败
此作业将最新的 Kerberos 票证更新为所有 UiPath 服务。此作业失败将导致 SQL Server 身份验证失败。请联系 UiPath 支持团队。
- 警示严重性键
- 常规.规则
- TargetDown
- Watchdog
- kubernetes-apps
- KubePodCrashLooping
- KubePodNotReady
- KubeDeploymentGenerationMismatch, KubeStatefulSetGenerationMismatch
- KubeDeploymentReplicasMismatch, KubeStatefulSetReplicasMismatch
- KubeStatefulSetUpdateNotRolledOut
- KubeDaemonSetRolloutStuck
- KubeContainerWaiting
- KubeDaemonSetNotScheduled, KubeDaemonSetMisScheduled
- KubeJobCompletion
- KubeJobFailed
- KubeHpaReplicasMismatch
- KubeHpaMaxedOut
- kubernetes-resources
- KubeCPUOvercommit, KubeMemoryOvercommit
- KubeCPUQuotaOvercommit, KubeMemoryQuotaOvercommit, KubeQuotaAlmostFull, KubeQuotaFullyUsed, KubeQuotaExceeded
- CPUThrottlingHigh
- Kubernetes-storage
- KubePersistentVolumeFillingUp
- KubePersistentVolumeErrors
- kube-state-metrics
- KubeStateMetricsListErrors, KubeStateMetricsWatchErrors
- kubernetes-system-apiserver
- KubeClientCertificateExpiration
- AggregatedAPIErrors, AggregatedAPIDown, KubeAPIDown, KubeAPITerminatedRequests
- kubernetes-system-kubelet
- KubeNodeNotReady, KubeNodeUnreachable, KubeNodeReadinessFlapping, KubeletPlegDurationHigh, KubeletPodStartUpLatencyHigh, KubeletDown
- KubeletTooManyPods
- KubeletClientCertificateExpiration, KubeletServerCertificateExpiration
- KubeletClientCertificateRenewalErrors, KubeletServerCertificateRenewalErrors
- kubernetes-system
- KubeVersionMismatch
- KubeClientErrors
- Kube-apiserver-slos
- KubeAPIErrorBudgetBurn
- node-exporter
- NodeFilesystemSpaceFillingUp、NodeFilesystemAlmostOutOfSpace、NodeFilesystemFilesFillingUp
- NodeRAIDDegraded
- NodeRAIDDiskFailure
- NodeNetworkReceiveErrs, NodeNetworkTransmitErrs, NodeHighNumberConntrackEntriesUsed
- NodeClockSkewDetected, NodeClockNotSynchronising
- node-network
- NodeNetworkInterfaceFlapping
- uipath.prometheus.resource.provisioning.alerts
- PrometheusMemoryUsage, PrometheusStorageUsage
- alertmanager.rules
- AlertmanagerConfigInconsistent
- AlertmanagerFailedReload
- prometheus-operator
- Prometheus 运算符列表错误,Prometheus 运算符观察错误,Prometheus 运算符同步失败,Prometheus 运算符协调错误, Prometheus 运算符节点查找错误,Prometheus 运算符未就绪,Prometheus 运算符被拒绝资源
- Prometheus
- PrometheusBadConfig
- PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers
- Prometheus 通知队列运行已满,Prometheus TSDB 重新加载失败,Prometheus TSDB 压缩失败,Prometheus 未提取样本, Prometheus 重复时间戳,Prometheus 时间戳乱序,Prometheus 远程存储失败,Prometheus 远程写入后台, Prometheus 远程写入所需分片
- PrometheusRuleFailures
- PrometheusMissingRuleEvaluations
- PrometheusTargetLimitHit
- uipath.availability.alerts
- UiPath 可用性高流量面向用户,UiPath 可用性高流量后端,UiPath 可用性中流量面向用户, UiPath 可用性中流量后端,UiPath 可用性低流量面向用户,UiPath 可用性低流量后端
- uipath.cronjob.alerts.rules
- UiPath CronJob“kerberos-tgt-refresh”失败
- UiPath CronJob Kerberos-tgt-secret-update 失败
- Osd-alert.rules
- CephOSDNearFull
- CephOSDCriticallyFull