- 概述
- 要求
- 安装
- 安装后
- 迁移和升级
- 监控和警示
- 使用监控堆栈
- 警示 runbook
- 集群管理
- 特定于产品的配置
- 故障排除

EKS/AKS 上的 Automation Suite 安装指南
警示 runbook
link警示严重性键
link
警示严重性 |
描述 |
---|---|
信息 | 意外但无害。可以静默,但在诊断期间可能有用。 |
Warning | 表明功能有针对性地降级或在不久的将来可能降级,这可能会影响整个集群。建议迅速采取行动(通常在几天内),以保持集群的正常运行。 |
重要事项 | 已知会导致集群中普遍存在的功能严重降级。需要立即采取行动(当天)修复集群。 |
常规.规则
linkTargetDown
Prometheus 无法从警示中的目标收集指标,这意味着 Grafana 仪表板和基于该目标的指标的进一步警示不可用。检查与该目标相关的其他警示。
Watchdog
这是一个警示,用于确保整个警示管道正常运行。此警示始终处于触发状态。因此,它应始终在“警示管理器”中针对接收器触发。有各种通知机制的集成,可在此警示未触发时通知您。例如,PagerDuty 中的 DeadMansSnitch 集成。
kubernetes-apps
linkKubePodCrashLooping
kubectl describe
检查 Pod 事件,并使用 kubectl logs
检查日志,以查看有关可能崩溃的详细信息。如果问题仍然存在,请联系 UiPath™ 支持团队。
KubePodNotReady
kubectl logs
检查 Pod 日志,以查看是否有任何进度指示。如果问题仍然存在,请联系 UiPath™ 支持团队。
KubeDeploymentGenerationMismatch, KubeStatefulSetGenerationMismatch
已尝试对部署或状态副本集进行更新,但失败了,并且尚未发生回滚。请联系 UiPath™ 支持团队。
KubeDeploymentReplicasMismatch, KubeStatefulSetReplicasMismatch
在具有多个副本的高可用性集群中,当副本数量不是最佳时,将触发此警示。当集群中没有足够的资源进行计划时,可能会发生这种情况。检查资源利用率,并根据需要添加容量。否则,请联系 UiPath™ 支持团队。
KubeStatefulSetUpdateNotRolledOut
状态副本集更新失败。请联系 UiPath™ 支持团队。
另请参阅:有状态副本集。
KubeDaemonSetRolloutStuck
守护程序集推出失败。请联系 UiPath™ 支持团队。
另请参阅:守护程序集。
KubeContainerWaiting
kubectl describe
以获取更多信息。等待容器的最常见原因是拉取映像失败。对于离线集群,这可能意味着本地注册表不可用。如果问题仍然存在,请联系 UiPath™ 支持团队。
KubeDaemonSetNotScheduled, KubeDaemonSetMisScheduled
这可能表明其中一个节点存在问题,检查每个节点的运行状况,并修复任何已知问题。否则,请联系 UiPath™ 支持团队。
KubeJobCompletion
完成一项作业需要超过 12 个小时。这不是预期的。请联系 UiPath™ 支持团队。
KubeJobFailed
作业失败;但是,大多数作业都会自动重试。如果问题仍然存在,请联系 UiPath™ 支持团队。
KubeHpaReplicasMismatch
自动调节程序无法按配置扩展目标资源。如果期望值高于实际值,则可能是资源不足。如果期望值低于实际值,则 Pod 可能会在关闭时卡住。如果问题仍然存在,请联系 UiPath™ 支持团队。
另请参阅:水平 Pod 自动调节
KubeHpaMaxedOut
给定服务的副本数量已达到最大值。当对集群发出的请求数量非常多时,就会发生这种情况。如果预计会有暂时的高流量,您可以静默此警示。但是,此警示表示集群已满,无法处理更多流量。如果集群上有更多资源容量可用,您可以按照以下说明增加服务的最大副本数:
# Find the horizontal autoscaler that controls the replicas of the desired resource
kubectl get hpa -A
# Increase the number of max replicas of the desired resource, replacing <namespace> <resource> and <maxReplicas>
kubectl -n <namespace> patch hpa <resource> --patch '{"spec":{"maxReplicas":<maxReplicas>}}'
# Find the horizontal autoscaler that controls the replicas of the desired resource
kubectl get hpa -A
# Increase the number of max replicas of the desired resource, replacing <namespace> <resource> and <maxReplicas>
kubectl -n <namespace> patch hpa <resource> --patch '{"spec":{"maxReplicas":<maxReplicas>}}'
另请参阅:水平 Pod 自动调节。
kubernetes-resources
linkKubeCPUOvercommit, KubeMemoryOvercommit
这些警告表明集群不能容忍节点故障。对于单节点评估集群,这是已知的,并且系统可能会静默这些警示。对于多节点 HA 就绪生产设置,当太多节点运行状况不佳而无法支持高可用性时,将触发这些警示,并指示应将节点恢复正常状态或进行更换。
KubeCPUQuotaOvercommit, KubeMemoryQuotaOvercommit, KubeQuotaAlmostFull, KubeQuotaFullyUsed, KubeQuotaExceeded
这些警示与通过自定义添加的命名空间资源配额有关,这些配额仅存在于集群中。命名空间资源配额不会作为 Automation Suite 安装的一部分添加。
另请参阅:资源配额。
CPUThrottlingHigh
已根据配置的限制限制容器的 CPU 利用率。这是 Kubernetes 正常操作的一部分,可能会在触发其他警示时提供有用的信息。您可以静默此警示。
Kubernetes-storage
linkKubePersistentVolumeFillingUp
警告:可用空间少于 30%,可能会在四天内填满。
“严重”:可用空间小于 10%。
对于空间不足的任何服务,数据可能难以恢复,因此应在可用空间达到 0% 之前调整卷的大小。
对于特定于 Prometheus 的警示,请参阅 Prometheus 存储 使用情况以获取更多详细信息和说明。
kube-state-metrics
linkKubeStateMetricsListErrors, KubeStateMetricsWatchErrors
Kube 状态指标收集器无法在没有错误的情况下从集群收集指标。这意味着可能不会触发重要的警示。请联系 UiPath™ 支持团队。
另请参阅:发布时的 Kube 状态指标。
kubernetes-system-apiserver
linkKubeClientCertificateExpiration
Warning:用于对 Kubernetes API 服务器进行身份验证的客户端证书将在七天内过期。
Critical:用于对 Kubernetes API 服务器进行身份验证的客户端证书将在一天内过期。
您必须续订证书。
AggregatedAPIErrors, AggregatedAPIDown, KubeAPIDown, KubeAPITerminatedRequests
指示 Kubernetes 控制平面存在问题。检查主节点的运行状况,解决所有未解决的问题,如果问题持续存在,请联系 UiPath™ 支持团队。
另请参阅:
KubernetesApiServerErrors
此警示表示 Kubernetes API 服务器的错误率很高。 此问题可能会导致其他故障,因此建议您主动调查此问题。
kubectl logs <pod-name> -n kube-system
命令检查api-server
Pod 的日志,以找出问题的根本原因。
kubernetes-system-kubelet
linkKubeNodeNotReady, KubeNodeUnreachable, KubeNodeReadinessFlapping, KubeletPlegDurationHigh, KubeletPodStartUpLatencyHigh, KubeletDown
这些警示表示节点存在问题。在多节点 HA 就绪生产集群中,系统可能会将 Pod 重新安排在其他节点上。如果问题仍然存在,则应删除并排空节点,以保持集群的良好运行状况。在没有额外容量的集群中,应首先将另一个节点加入集群。
如果问题仍然存在,请联系 UiPath™ 支持团队。
KubeletTooManyPods
指定节点上运行的 Pod 过多。
KubeletClientCertificateExpiration, KubeletServerCertificateExpiration
Warning:Kubelet 的客户端或服务器证书将在七天内过期。
Critical:Kubelet 的客户端或服务器证书将在一天内过期。
您必须续订证书。
KubeletClientCertificateRenewalErrors, KubeletServerCertificateRenewalErrors
Kubelet 无法续订其客户端或服务器证书。请联系 UiPath™ 支持团队。
kubernetes-system
linkKubeVersionMismatch
正在运行的 Kubernetes 组件有不同的语义版本。发生这种情况的原因可能是 Kubernetes 升级失败。
KubeClientErrors
Kubernetes API 服务器客户端遇到超过 1% 的错误。运行此客户端的节点或 Kubernetes API 服务器本身可能存在问题。
KubernetesMemoryPressure
此警示表示 Kubernetes 节点上的内存使用率非常高。
如果触发此警示,请尝试查看哪个 Pod 消耗的内存更多。
KubernetesDiskPressure
此警示表示 Kubernetes 节点上的磁盘使用率非常高。
如果触发此警示,请尝试查看哪个 Pod 消耗的磁盘更多。
node-exporter
linkNodeFilesystemSpaceFillingUp、NodeFilesystemAlmostOutOfSpace、NodeFilesystemFilesFillingUp
特定节点上的文件系统正在填满。通过添加磁盘或装载未使用的磁盘来配置更多空间。
NodeRAIDDegraded
由于一个或多个磁盘故障,容错式磁盘阵列处于降级状态。备用驱动器的数量
不足以自动修复问题。
NodeRAIDDiskFailure
需要注意容错式磁盘阵列,可能还需要进行磁盘交换。
NodeNetworkReceiveErrs, NodeNetworkTransmitErrs, NodeHighNumberConntrackEntriesUsed
节点上的物理网络接口有问题。如果问题仍然存在,则可能需要更换。
NodeClockSkewDetected, NodeClockNotSynchronising
节点上的时钟有问题。确保 NTP 配置正确。
node-network
linkNodeNetworkInterfaceFlapping
节点上的物理网络接口有问题。如果问题仍然存在,则可能需要更换。
InternodeCommunicationBroken
link由于某些问题导致集群中节点之间的通信中断,节点已变得无响应。
要解决此问题,请重新启动受影响的节点。 如果问题仍然存在,请使用支持捆绑包工具联系 UiPath™ 支持团队。
alertmanager.rules
linkAlertmanagerConfigInconsistent
这些是具有多个警示管理器副本的 HA 集群的内部警示管理器错误。警示可能会间歇性地出现和消失。暂时缩小规模,然后扩大警示管理器副本可能会解决此问题。
要解决此问题,请执行以下步骤:
-
缩放至零。请注意,Pod 需要一段时间才能关闭:
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=0 -
缩小到 2:
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2
kubectl scale statefulset -n cattle-monitoring-system alertmanager-rancher-monitoring-alertmanager --replicas=2 -
检查 Alertmanager Pod 是否已启动以及是否处于正在运行状态:
kubectl get po -n cattle-monitoring-system
kubectl get po -n cattle-monitoring-system
如果问题仍然存在,请联系 UiPath™ 支持团队。
AlertmanagerFailedReload
警示管理器加载或重新加载配置失败。请检查任何自定义警示管理器配置中是否存在输入错误,否则请联系 UiPath™ 支持团队。
prometheus-operator
linkPrometheusOperatorListErrors, PrometheusOperatorWatchErrors, PrometheusOperatorSyncFailed, PrometheusOperatorReconcileErrors, PrometheusOperatorNodeLookupErrors, PrometheusOperatorNotReady, PrometheusOperatorRejectedResources
控制 Prometheus 资源的 Prometheus 运算符的内部错误。存在这些错误时,Prometheus 本身可能仍然运行良好;但是,此错误表示监控可配置性下降。请联系 UiPath™ 支持团队。
Prometheus
linkPrometheusBadConfig
Prometheus 加载或重新加载配置失败。请检查任何自定义 Prometheus 配置是否存在输入错误。否则,请联系 UiPath™ 支持团队。
PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers
从 Prometheus 到警示管理器的连接不正常。指标仍可查询,并且 Grafana 仪表板可能仍会显示指标,但不会触发警示。检查警示管理器的任何自定义配置是否存在输入错误,否则请联系 UiPath™ 支持团队。
PrometheusNotificationQueueRunningFull, PrometheusTSDBReloadsFailing, PrometheusTSDBCompactionsFailing, PrometheusNotIngestingSamples, PrometheusDuplicateTimestamps, PrometheusOutOfOrderTimestamps, PrometheusRemoteStorageFailures, PrometheusRemoteWriteBehind, PrometheusRemoteWriteDesiredShards
表示可能无法按预期收集指标的内部 Prometheus 错误。请联系 UiPath™ 支持团队。
PrometheusRuleFailures
如果存在基于不存在的指标或不正确的 PromQL 语法的格式错误警示,则可能会发生这种情况。如果未添加自定义警示,请联系 UiPath™ 支持团队。
PrometheusMissingRuleEvaluations
Prometheus 无法评估是否应触发警示。如果警示太多,可能会发生这种情况。请删除昂贵的自定义警示评估和/或查看有关增加 Prometheus CPU 限制的文档。如果未添加自定义警示,请联系 UiPath™ 支持团队。
PrometheusTargetLimitHit
Prometheus 要收集的目标过多。如果添加了额外的 ServiceMonitor(请参阅监控控制台),您可以将其删除。
uipath.availability.alerts
linkUiPathAvailabilityHighTrafficUserFacing, UiPathAvailabilityHighTrafficBackend, UiPathAvailabilityMediumTrafficUserFacing, UiPathAvailabilityMediumTrafficBackend, UiPathAvailabilityLowTrafficUserFacing, UiPathAvailabilityLowTrafficBackend
来自 UiPath™ 服务的 HTTP 500 响应数量超过给定阈值。
流量级别 |
20 分钟内的请求数 |
错误阈值(适用于 HTTP 500) |
---|---|---|
高 |
>100,000 |
0.1% |
中 |
10,000 到 100,000 之间 |
1% |
低 |
< 10,000 |
5% |
面向用户的服务中的错误可能会导致可在 Automation Suite 用户界面中直接观察到的功能降级,而后端服务中的错误则不会产生明显的后果。
警示会指明哪个服务的错误率较高。要了解报告服务所依赖的其他服务可能存在哪些级联问题,您可以使用 Istio 工作负载仪表板,该仪表板会显示服务之间的错误。
请仔细检查所有最近重新配置的 Automation Suite 产品。还可以使用 kubectl logs 命令获取详细日志。如果错误仍然存在,请联系 UiPath™ 支持团队。
uipath.cronjob.alerts.rules
linkCronJobSuspended
uipath-infra/istio-configure-script-cronjob
cronjob 处于挂起状态。
要解决此问题,请执行以下步骤来启用 cronjob:
export KUBECONFIG="/etc/rancher/rke2/rke2.yaml" && export PATH="$PATH:/usr/local/bin:/var/lib/rancher/rke2/bin"
kubectl -n uipath-infra patch cronjob istio-configure-script-cronjob -p '{"spec":{"suspend":false}}'
epoch=$(date +"%s")
kubectl -n uipath-infra create job istio-configure-script-cronjob-manual-$epoch --from=cronjob/istio-configure-script-cronjob
kubectl -n uipath-infra wait --for=condition=complete --timeout=300s job/istio-configure-script-cronjob-manual-$epoch
kubectl get node -o wide
#Verify if all the IP's listed by the previous command are part of output of the following command
kubectl -n istio-system get svc istio-ingressgateway -o json | jq '.spec.externalIPs'
export KUBECONFIG="/etc/rancher/rke2/rke2.yaml" && export PATH="$PATH:/usr/local/bin:/var/lib/rancher/rke2/bin"
kubectl -n uipath-infra patch cronjob istio-configure-script-cronjob -p '{"spec":{"suspend":false}}'
epoch=$(date +"%s")
kubectl -n uipath-infra create job istio-configure-script-cronjob-manual-$epoch --from=cronjob/istio-configure-script-cronjob
kubectl -n uipath-infra wait --for=condition=complete --timeout=300s job/istio-configure-script-cronjob-manual-$epoch
kubectl get node -o wide
#Verify if all the IP's listed by the previous command are part of output of the following command
kubectl -n istio-system get svc istio-ingressgateway -o json | jq '.spec.externalIPs'
UiPath CronJob“kerberos-tgt-refresh”失败
此作业从 AD Server 获取最新的 Kerberos 票证,以进行 SQL 集成身份验证。此作业失败将导致 SQL Server 身份验证失败。请联系 UiPath™ 支持团队。
IdentityKerberosTgtUpdateFailed
此作业将最新的 Kerberos 票证更新为所有 UiPath™ 服务。此作业失败将导致 SQL Server 身份验证失败。请联系 UiPath™ 支持团队。
uipath.requestrouting.alerts
linkUiPathRequestRouting
请求路由层中的错误会导致功能降级,这可以直接在 Automation Suite 用户界面中观察到。 请求不会路由到后端服务。
kubectl logs
命令来查找请求路由的详细错误日志。如果错误仍然存在,请联系 UiPath™ 支持团队。
服务器 TLS 证书警示
linkSecretCertificateExpiry30Days
此警示表示服务器 TLS 证书将在接下来的 30 天内过期。
要解决此问题,请更新服务器 TLS 证书。 有关说明,请参阅 管理服务器证书。
SecretCertificateExpiry7Days
此警示表示服务器 TLS 证书将在接下来的 7 天内过期。
要解决此问题,请更新 TLS 证书。有关说明,请参阅管理服务器证书。
身份令牌签名证书警示
linkIdentityCertificateExpiry30Days
此警示表示身份令牌签名证书将在接下来的 30 天内过期。
要解决此问题,请更新身份令牌签名证书。有关说明,请参阅管理服务器证书。
IdentityCertificateExpiry7Days
此警示表示身份令牌签名证书将在接下来的 7 天内过期。
要解决此问题,请更新身份令牌签名证书。有关说明,请参阅管理服务器证书。
etdc 警示
linkEtcdInsufficientMembers
此警示表示 etcd 集群的成员数量不足。 请注意,集群必须具有奇数个成员。 此警示的严重性非常严重。
确保集群中有奇数个服务器节点,并且所有节点都正常运行。
EtcdNoLeader
此警示显示 etcd 集群没有领导者。 此警示的严重性非常严重。
EtcdHighNumberOfLeaderChanges
此警示表示 etcd 领导者在 10 分钟内更改了两次以上。 这是一个警告。
EtcdHighNumberOfFailedGrpcRequests
此警示表示在 etcd 中检测到一定百分比的 GRPC 请求失败。
EtcdGrpcRequestsSlow
此警示表示 etcd GRPC 请求速度很慢。 这是一个警告。
EtcdHighNumberOfFailedHttpRequests
此警示表示在 etcd 中检测到一定百分比的 HTTP 失败。
EtcdHttpRequestsSlow
此警示表示 HTTP 请求速度减慢。 这是一个警告。
EtcdMemberCommunicationSlow
此警示表示 etcd 成员通信速度变慢。 这是一个警告。
EtcdHighNumberOfFailedProposals
此警示表示 etcd 服务器在过去一小时内收到了超过 5 个失败的提议。 这是一个警告。
EtcdHighFsyncDurations
此警示表示 etcd WAL fsync 持续时间正在增加。 这是一个警告。
EtcdHighCommitDurations
此警示表示 etcd 提交持续时间正在增加。 这是一个警告。
磁盘大小警示
linkLowDiskForRancherPartition
/var/lib/rancher
分区的可用空间小于:
- 35% – 警示的严重性为警告
- 25% – 警示的严重性非常严重
如果触发此警示,请增加磁盘大小。
LowDiskForKubeletPartition
/var/lib/kubelet
分区的可用空间小于:
- 35% – 警示的严重性为警告
-
25% – 警示的严重性非常严重
如果触发此警示,请增加磁盘大小。
LowDiskForVarPartition
/var
分区的可用空间小于:
- 35% – 警示的严重性为警告
- 25% – 警示的严重性非常严重
ML 技能的存储要求可能会大大增加磁盘使用量。
如果触发此警示,请增加磁盘大小。
- 警示严重性键
- 常规.规则
- TargetDown
- Watchdog
- kubernetes-apps
- KubePodCrashLooping
- KubePodNotReady
- KubeDeploymentGenerationMismatch, KubeStatefulSetGenerationMismatch
- KubeDeploymentReplicasMismatch, KubeStatefulSetReplicasMismatch
- KubeStatefulSetUpdateNotRolledOut
- KubeDaemonSetRolloutStuck
- KubeContainerWaiting
- KubeDaemonSetNotScheduled, KubeDaemonSetMisScheduled
- KubeJobCompletion
- KubeJobFailed
- KubeHpaReplicasMismatch
- KubeHpaMaxedOut
- kubernetes-resources
- KubeCPUOvercommit, KubeMemoryOvercommit
- KubeCPUQuotaOvercommit, KubeMemoryQuotaOvercommit, KubeQuotaAlmostFull, KubeQuotaFullyUsed, KubeQuotaExceeded
- CPUThrottlingHigh
- Kubernetes-storage
- KubePersistentVolumeFillingUp
- kube-state-metrics
- KubeStateMetricsListErrors, KubeStateMetricsWatchErrors
- kubernetes-system-apiserver
- KubeClientCertificateExpiration
- AggregatedAPIErrors, AggregatedAPIDown, KubeAPIDown, KubeAPITerminatedRequests
- KubernetesApiServerErrors
- kubernetes-system-kubelet
- KubeNodeNotReady, KubeNodeUnreachable, KubeNodeReadinessFlapping, KubeletPlegDurationHigh, KubeletPodStartUpLatencyHigh, KubeletDown
- KubeletTooManyPods
- KubeletClientCertificateExpiration, KubeletServerCertificateExpiration
- KubeletClientCertificateRenewalErrors, KubeletServerCertificateRenewalErrors
- kubernetes-system
- KubeVersionMismatch
- KubeClientErrors
- KubernetesMemoryPressure
- KubernetesDiskPressure
- Kube-apiserver-slos
- KubeAPIErrorBudgetBurn
- node-exporter
- NodeFilesystemSpaceFillingUp、NodeFilesystemAlmostOutOfSpace、NodeFilesystemFilesFillingUp
- NodeRAIDDegraded
- NodeRAIDDiskFailure
- NodeNetworkReceiveErrs, NodeNetworkTransmitErrs, NodeHighNumberConntrackEntriesUsed
- NodeClockSkewDetected, NodeClockNotSynchronising
- node-network
- NodeNetworkInterfaceFlapping
- InternodeCommunicationBroken
- alertmanager.rules
- AlertmanagerConfigInconsistent
- AlertmanagerFailedReload
- prometheus-operator
- Prometheus 运算符列表错误,Prometheus 运算符观察错误,Prometheus 运算符同步失败,Prometheus 运算符协调错误, Prometheus 运算符节点查找错误,Prometheus 运算符未就绪,Prometheus 运算符被拒绝资源
- Prometheus
- PrometheusBadConfig
- PrometheusErrorSendingAlertsToSomeAlertmanagers, PrometheusErrorSendingAlertsToAnyAlertmanager, PrometheusNotConnectedToAlertmanagers
- Prometheus 通知队列运行已满,Prometheus TSDB 重新加载失败,Prometheus TSDB 压缩失败,Prometheus 未提取样本, Prometheus 重复时间戳,Prometheus 时间戳乱序,Prometheus 远程存储失败,Prometheus 远程写入后台, Prometheus 远程写入所需分片
- PrometheusRuleFailures
- PrometheusMissingRuleEvaluations
- PrometheusTargetLimitHit
- uipath.availability.alerts
- UiPath 可用性高流量面向用户,UiPath 可用性高流量后端,UiPath 可用性中流量面向用户, UiPath 可用性中流量后端,UiPath 可用性低流量面向用户,UiPath 可用性低流量后端
- uipath.cronjob.alerts.rules
- CronJobSuspended
- UiPath CronJob“kerberos-tgt-refresh”失败
- IdentityKerberosTgtUpdateFailed
- uipath.requestrouting.alerts
- UiPathRequestRouting
- 服务器 TLS 证书警示
- SecretCertificateExpiry30Days
- SecretCertificateExpiry7Days
- 身份令牌签名证书警示
- IdentityCertificateExpiry30Days
- IdentityCertificateExpiry7Days
- etdc 警示
- EtcdInsufficientMembers
- EtcdNoLeader
- EtcdHighNumberOfLeaderChanges
- EtcdHighNumberOfFailedGrpcRequests
- EtcdGrpcRequestsSlow
- EtcdHighNumberOfFailedHttpRequests
- EtcdHttpRequestsSlow
- EtcdMemberCommunicationSlow
- EtcdHighNumberOfFailedProposals
- EtcdHighFsyncDurations
- EtcdHighCommitDurations
- 磁盘大小警示
- LowDiskForRancherPartition
- LowDiskForKubeletPartition
- LowDiskForVarPartition