- 概述
- 要求
- 安装
- 安装后
- 迁移和升级
- 监控和警示
- 使用监控堆栈
- 警示 runbook
- 集群管理
- 特定于产品的配置
- 故障排除
警示 runbook
警示严重性 |
描述 |
---|---|
信息 | 意外但无害。可以静默,但在诊断期间可能有用。 |
Warning | 表明功能有针对性地降级或在不久的将来可能降级,这可能会影响整个集群。建议迅速采取行动(通常在几天内),以保持集群的正常运行。 |
重要事项 | 已知会导致集群中普遍存在的功能严重降级。需要立即采取行动(当天)修复集群。 |
kubectl describe
检查 Pod 事件,并使用 kubectl logs
检查日志,以查看有关可能崩溃的详细信息。如果问题仍然存在,请联系 UiPath™ 支持团队。
kubectl logs
检查 Pod 日志,以查看是否有任何进度指示。如果问题仍然存在,请联系 UiPath™ 支持团队。
已尝试对部署或状态副本集进行更新,但失败了,并且尚未发生回滚。请联系 UiPath™ 支持团队。
在具有多个副本的高可用性集群中,当副本数量不是最佳时,将触发此警示。当集群中没有足够的资源进行计划时,可能会发生这种情况。检查资源利用率,并根据需要添加容量。否则,请联系 UiPath™ 支持团队。
状态副本集更新失败。请联系 UiPath™ 支持团队。
另请参阅:有状态副本集。
守护程序集推出失败。请联系 UiPath™ 支持团队。
另请参阅:守护程序集。
kubectl describe
以获取更多信息。等待容器的最常见原因是拉取映像失败。对于离线集群,这可能意味着本地注册表不可用。如果问题仍然存在,请联系 UiPath™ 支持团队。
这可能表明其中一个节点存在问题,检查每个节点的运行状况,并修复任何已知问题。否则,请联系 UiPath™ 支持团队。
自动调节程序无法按配置扩展目标资源。如果期望值高于实际值,则可能是资源不足。如果期望值低于实际值,则 Pod 可能会在关闭时卡住。如果问题仍然存在,请联系 UiPath™ 支持团队。
另请参阅:水平 Pod 自动调节
给定服务的副本数量已达到最大值。当对集群发出的请求数量非常多时,就会发生这种情况。如果预计会有暂时的高流量,您可以静默此警示。但是,此警示表示集群已满,无法处理更多流量。如果集群上有更多资源容量可用,您可以按照以下说明增加服务的最大副本数:
# Find the horizontal autoscaler that controls the replicas of the desired resource
kubectl get hpa -A
# Increase the number of max replicas of the desired resource, replacing <namespace> <resource> and <maxReplicas>
kubectl -n <namespace> patch hpa <resource> --patch '{"spec":{"maxReplicas":<maxReplicas>}}'
# Find the horizontal autoscaler that controls the replicas of the desired resource
kubectl get hpa -A
# Increase the number of max replicas of the desired resource, replacing <namespace> <resource> and <maxReplicas>
kubectl -n <namespace> patch hpa <resource> --patch '{"spec":{"maxReplicas":<maxReplicas>}}'
另请参阅:水平 Pod 自动调节。
这些警告表明集群不能容忍节点故障。对于单节点评估集群,这是已知的,并且系统可能会静默这些警示。对于多节点 HA 就绪生产设置,当太多节点运行状况不佳而无法支持高可用性时,将触发这些警示,并指示应将节点恢复正常状态或进行更换。
KubeCPUQuotaOvercommit, KubeMemoryQuotaOvercommit, KubeQuotaAlmostFull, KubeQuotaFullyUsed, KubeQuotaExceeded
这些警示与通过自定义添加的命名空间资源配额有关,这些配额仅存在于集群中。命名空间资源配额不会作为 Automation Suite 安装的一部分添加。
另请参阅:资源配额。
警告:可用空间少于 30%,可能会在四天内填满。
“严重”:可用空间小于 10%。
对于空间不足的任何服务,数据可能难以恢复,因此应在可用空间达到 0% 之前调整卷的大小。
对于特定于 Prometheus 的警示,请参阅 Prometheus 存储 使用情况以获取更多详细信息和说明。
Kube 状态指标收集器无法在没有错误的情况下从集群收集指标。这意味着可能不会触发重要的警示。请联系 UiPath™ 支持团队。
另请参阅:发布时的 Kube 状态指标。
Warning:用于对 Kubernetes API 服务器进行身份验证的客户端证书将在七天内过期。
Critical:用于对 Kubernetes API 服务器进行身份验证的客户端证书将在一天内过期。
您必须续订证书。
指示 Kubernetes 控制平面存在问题。检查主节点的运行状况,解决所有未解决的问题,如果问题持续存在,请联系 UiPath™ 支持团队。
另请参阅:
KubeNodeNotReady, KubeNodeUnreachable, KubeNodeReadinessFlapping, KubeletPlegDurationHigh, KubeletPodStartUpLatencyHigh, KubeletDown
这些警示表示节点存在问题。在多节点 HA 就绪生产集群中,系统可能会将 Pod 重新安排在其他节点上。如果问题仍然存在,则应删除并排空节点,以保持集群的良好运行状况。在没有额外容量的集群中,应首先将另一个节点加入集群。
Warning:Kubelet 的客户端或服务器证书将在七天内过期。
Critical:Kubelet 的客户端或服务器证书将在一天内过期。
您必须续订证书。
特定节点上的文件系统正在填满。通过添加磁盘或装载未使用的磁盘来配置更多空间。
节点上的物理网络接口有问题。如果问题仍然存在,则可能需要更换。
由于某些问题导致集群中节点之间的通信中断,节点已变得无响应。
要解决此问题,请重新启动受影响的节点。 如果问题仍然存在,请使用支持捆绑包工具联系 UiPath™ 支持团队。
这些是具有多个警示管理器副本的 HA 集群的内部警示管理器错误。警示可能会间歇性地出现和消失。暂时缩小规模,然后扩大警示管理器副本可能会解决此问题。
要解决此问题,请执行以下步骤:
-
缩放至零。请注意,Pod 需要一段时间才能关闭:
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0 -
缩小到 2:
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2 -
检查 Alertmanager Pod 是否已启动以及是否处于正在运行状态:
kubectl get po -n cattle-monitoring-system
kubectl get po -n cattle-monitoring-system
如果问题仍然存在,请联系 UiPath™ 支持团队。
PrometheusOperatorListErrors, PrometheusOperatorWatchErrors, PrometheusOperatorSyncFailed, PrometheusOperatorReconcileErrors, PrometheusOperatorNodeLookupErrors, PrometheusOperatorNotReady, PrometheusOperatorRejectedResources
控制 Prometheus 资源的 Prometheus 运算符的内部错误。存在这些错误时,Prometheus 本身可能仍然运行良好;但是,此错误表示监控可配置性下降。请联系 UiPath™ 支持团队。
PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers
从 Prometheus 到警示管理器的连接不正常。指标仍可查询,并且 Grafana 仪表板可能仍会显示指标,但不会触发警示。检查警示管理器的任何自定义配置是否存在输入错误,否则请联系 UiPath™ 支持团队。
PrometheusNotificationQueueRunningFull, PrometheusTSDBReloadsFailing, PrometheusTSDBCompactionsFailing, PrometheusNotIngestingSamples, PrometheusDuplicateTimestamps, PrometheusOutOfOrderTimestamps, PrometheusRemoteStorageFailures, PrometheusRemoteWriteBehind, PrometheusRemoteWriteDesiredShards
表示可能无法按预期收集指标的内部 Prometheus 错误。请联系 UiPath™ 支持团队。
Prometheus 无法评估是否应触发警示。如果警示太多,可能会发生这种情况。请删除昂贵的自定义警示评估和/或查看有关增加 Prometheus CPU 限制的文档。如果未添加自定义警示,请联系 UiPath™ 支持团队。
UiPathAvailabilityHighTrafficUserFacing, UiPathAvailabilityHighTrafficBackend, UiPathAvailabilityMediumTrafficUserFacing, UiPathAvailabilityMediumTrafficBackend, UiPathAvailabilityLowTrafficUserFacing, UiPathAvailabilityLowTrafficBackend
来自 UiPath™ 服务的 HTTP 500 响应数量超过给定阈值。
流量级别 |
20 分钟内的请求数 |
错误阈值(适用于 HTTP 500) |
---|---|---|
高 |
>100,000 |
0.1% |
中 |
10,000 到 100,000 之间 |
1% |
低 |
< 10,000 |
5% |
面向用户的服务中的错误可能会导致可在 Automation Suite 用户界面中直接观察到的功能降级,而后端服务中的错误则不会产生明显的后果。
警示会指明哪个服务的错误率较高。要了解报告服务所依赖的其他服务可能存在哪些级联问题,您可以使用 Istio 工作负载仪表板,该仪表板会显示服务之间的错误。
请仔细检查所有最近重新配置的 Automation Suite 产品。还可以使用 kubectl logs 命令获取详细日志。如果错误仍然存在,请联系 UiPath™ 支持团队。
uipath-infra/istio-configure-script-cronjob
cronjob 处于挂起状态。
要解决此问题,请执行以下步骤来启用 cronjob:
export KUBECONFIG="/etc/rancher/rke2/rke2.yaml" && export PATH="$PATH:/usr/local/bin:/var/lib/rancher/rke2/bin"
kubectl -n uipath-infra patch cronjob istio-configure-script-cronjob -p '{"spec":{"suspend":false}}'
epoch=$(date +"%s")
kubectl -n uipath-infra create job istio-configure-script-cronjob-manual-$epoch --from=cronjob/istio-configure-script-cronjob
kubectl -n uipath-infra wait --for=condition=complete --timeout=300s job/istio-configure-script-cronjob-manual-$epoch
kubectl get node -o wide
#Verify if all the IP's listed by the above command are part of output of below command
kubectl -n istio-system get svc istio-ingressgateway -o json | jq '.spec.externalIPs'
export KUBECONFIG="/etc/rancher/rke2/rke2.yaml" && export PATH="$PATH:/usr/local/bin:/var/lib/rancher/rke2/bin"
kubectl -n uipath-infra patch cronjob istio-configure-script-cronjob -p '{"spec":{"suspend":false}}'
epoch=$(date +"%s")
kubectl -n uipath-infra create job istio-configure-script-cronjob-manual-$epoch --from=cronjob/istio-configure-script-cronjob
kubectl -n uipath-infra wait --for=condition=complete --timeout=300s job/istio-configure-script-cronjob-manual-$epoch
kubectl get node -o wide
#Verify if all the IP's listed by the above command are part of output of below command
kubectl -n istio-system get svc istio-ingressgateway -o json | jq '.spec.externalIPs'
此作业从 AD Server 获取最新的 Kerberos 票证,以进行 SQL 集成身份验证。此作业失败将导致 SQL Server 身份验证失败。请联系 UiPath™ 支持团队。
此警示表示服务器 TLS 证书将在接下来的 30 天内过期。
要解决此问题,请更新服务器 TLS 证书。 有关说明,请参阅 管理服务器证书。
此警示表示服务器 TLS 证书将在接下来的 7 天内过期。
要解决此问题,请更新 TLS 证书。有关说明,请参阅管理服务器证书。
此警示表示身份令牌签名证书将在接下来的 30 天内过期。
要解决此问题,请更新身份令牌签名证书。有关说明,请参阅管理服务器证书。
此警示表示身份令牌签名证书将在接下来的 7 天内过期。
要解决此问题,请更新身份令牌签名证书。有关说明,请参阅管理服务器证书。
此警示表示 etcd 集群的成员数量不足。 请注意,集群必须具有奇数个成员。 此警示的严重性非常严重。
确保集群中有奇数个服务器节点,并且所有节点都正常运行。
/var/lib/rancher
分区的可用空间小于:
- 35% – 警示的严重性为警告
- 25% – 警示的严重性非常严重
如果触发此警示,请增加磁盘大小。
/var/lib/kubelet
分区的可用空间小于:
- 35% – 警示的严重性为警告
-
25% – 警示的严重性非常严重
如果触发此警示,请增加磁盘大小。
- 警示严重性键
- 常规.规则
- TargetDown
- Watchdog
- kubernetes-apps
- KubePodCrashLooping
- KubePodNotReady
- KubeDeploymentGenerationMismatch, KubeStatefulSetGenerationMismatch
- KubeDeploymentReplicasMismatch, KubeStatefulSetReplicasMismatch
- KubeStatefulSetUpdateNotRolledOut
- KubeDaemonSetRolloutStuck
- KubeContainerWaiting
- KubeDaemonSetNotScheduled, KubeDaemonSetMisScheduled
- KubeJobCompletion
- KubeJobFailed
- KubeHpaReplicasMismatch
- KubeHpaMaxedOut
- kubernetes-resources
- KubeCPUOvercommit, KubeMemoryOvercommit
- KubeCPUQuotaOvercommit, KubeMemoryQuotaOvercommit, KubeQuotaAlmostFull, KubeQuotaFullyUsed, KubeQuotaExceeded
- CPUThrottlingHigh
- Kubernetes-storage
- KubePersistentVolumeFillingUp
- kube-state-metrics
- KubeStateMetricsListErrors, KubeStateMetricsWatchErrors
- kubernetes-system-apiserver
- KubeClientCertificateExpiration
- AggregatedAPIErrors, AggregatedAPIDown, KubeAPIDown, KubeAPITerminatedRequests
- KubernetesApiServerErrors
- kubernetes-system-kubelet
- KubeNodeNotReady, KubeNodeUnreachable, KubeNodeReadinessFlapping, KubeletPlegDurationHigh, KubeletPodStartUpLatencyHigh, KubeletDown
- KubeletTooManyPods
- KubeletClientCertificateExpiration, KubeletServerCertificateExpiration
- KubeletClientCertificateRenewalErrors, KubeletServerCertificateRenewalErrors
- kubernetes-system
- KubeVersionMismatch
- KubeClientErrors
- KubernetesMemoryPressure
- KubernetesDiskPressure
- Kube-apiserver-slos
- KubeAPIErrorBudgetBurn
- node-exporter
- NodeFilesystemSpaceFillingUp、NodeFilesystemAlmostOutOfSpace、NodeFilesystemFilesFillingUp
- NodeRAIDDegraded
- NodeRAIDDiskFailure
- NodeNetworkReceiveErrs, NodeNetworkTransmitErrs, NodeHighNumberConntrackEntriesUsed
- NodeClockSkewDetected, NodeClockNotSynchronising
- node-network
- NodeNetworkInterfaceFlapping
- InternodeCommunicationBroken
- alertmanager.rules
- AlertmanagerConfigInconsistent
- AlertmanagerFailedReload
- prometheus-operator
- Prometheus 运算符列表错误,Prometheus 运算符观察错误,Prometheus 运算符同步失败,Prometheus 运算符协调错误, Prometheus 运算符节点查找错误,Prometheus 运算符未就绪,Prometheus 运算符被拒绝资源
- Prometheus
- PrometheusBadConfig
- PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers
- Prometheus 通知队列运行已满,Prometheus TSDB 重新加载失败,Prometheus TSDB 压缩失败,Prometheus 未提取样本, Prometheus 重复时间戳,Prometheus 时间戳乱序,Prometheus 远程存储失败,Prometheus 远程写入后台, Prometheus 远程写入所需分片
- PrometheusRuleFailures
- PrometheusMissingRuleEvaluations
- PrometheusTargetLimitHit
- uipath.availability.alerts
- UiPath 可用性高流量面向用户,UiPath 可用性高流量后端,UiPath 可用性中流量面向用户, UiPath 可用性中流量后端,UiPath 可用性低流量面向用户,UiPath 可用性低流量后端
- uipath.cronjob.alerts.rules
- CronJobSuspended
- UiPath CronJob“kerberos-tgt-refresh”失败
- IdentityKerberosTgtUpdateFailed
- uipath.requestrouting.alerts
- UiPathRequestRouting
- 服务器 TLS 证书警示
- SecretCertificateExpiry30Days
- SecretCertificateExpiry7Days
- 身份令牌签名证书警示
- IdentityCertificateExpiry30Days
- IdentityCertificateExpiry7Days
- etdc 警示
- EtcdInsufficientMembers
- EtcdNoLeader
- EtcdHighNumberOfLeaderChanges
- EtcdHighNumberOfFailedGrpcRequests
- EtcdGrpcRequestsSlow
- EtcdHighNumberOfFailedHttpRequests
- EtcdHttpRequestsSlow
- EtcdMemberCommunicationSlow
- EtcdHighNumberOfFailedProposals
- EtcdHighFsyncDurations
- EtcdHighCommitDurations
- 磁盘大小警示
- LowDiskForRancherPartition
- LowDiskForKubeletPartition
- LowDiskForVarPartition