Automation Suite
2023.10
False
Kubernetes 资源警示 - Automation Suite 2023.10
徽标
Linux 版 Automation Suite 安装指南
上次更新日期 2023年12月4日

Kubernetes 资源警示

k8s. rules、kube-apiserver-availability. rules、 kube-apiserver-slos

KubeAPIErrorBudgetBurn

Kubernetes API 服务器消耗了过多的错误预算。

kube-state-metrics

KubeStateMetricsListErrors, KubeStateMetricsWatchErrors

Kube 状态指标收集器无法在没有错误的情况下从集群收集指标。这意味着可能不会触发重要的警示。请联系 UiPath 支持团队。

另请参阅:发布时的 Kube 状态指标

KubernetesMemoryPressure

此警示表示 Kubernetes 节点上的内存使用率非常高。

如果触发此警示,请尝试查看哪个 Pod 消耗的内存更多。

kubernetes-apps

KubePodCrashLooping

不断意外重启的 Pod。发生这种情况的原因可能是内存不足 (OOM) 错误,在这种情况下,可以调整限制。使用 kubectl describe 检查 Pod 事件,并使用 kubectl logs 检查日志,以查看有关可能崩溃的详细信息。如果问题仍然存在,请联系 UiPath 支持团队。

KubePodNotReady

Pod 已启动,但未成功响应运行状况探测器。这可能意味着它卡住了,无法提供流量。您可以使用 kubectl logs 检查 Pod 日志,以查看是否有任何进度指示。如果问题仍然存在,请联系 UiPath 支持团队。

KubeDeploymentGenerationMismatch, KubeStatefulSetGenerationMismatch

已尝试对部署或状态副本集进行更新,但失败了,并且尚未发生回滚。请联系 UiPath 支持团队。

KubeDeploymentReplicasMismatch, KubeStatefulSetReplicasMismatch

在具有多个副本的高可用性集群中,当副本数量不是最佳时,将触发此警示。当集群中没有足够的资源进行计划时,可能会发生这种情况。检查资源利用率,并根据需要添加容量。否则,请联系 UiPath 支持团队。

KubeStatefulSetUpdateNotRolledOut

状态副本集更新失败。请联系 UiPath 支持团队。

另请参阅:有状态副本集

KubeDaemonSetRolloutStuck

守护程序集推出失败。请联系 UiPath 支持团队。

另请参阅:守护程序集

KubeContainerWaiting

容器卡在等待状态。它已计划到工作器节点,但无法在该计算机上运行。查看 Pod 的 kubectl describe 以获取更多信息。等待容器的最常见原因是拉取映像失败。对于离线集群,这可能意味着本地注册表不可用。如果问题仍然存在,请联系 UiPath 支持团队。

KubeDaemonSetNotScheduled, KubeDaemonSetMisScheduled

这可能表明其中一个节点存在问题,检查每个节点的运行状况,并修复任何已知问题。否则,请联系 UiPath 支持团队。

KubeJobCompletion

完成一项作业需要超过 12 个小时。这不是预期的。请联系 UiPath 支持团队。

KubeJobFailed

作业失败;但是,大多数作业都会自动重试。如果问题仍然存在,请联系 UiPath 支持团队。

KubeHpaReplicasMismatch

自动调节程序无法按配置扩展目标资源。如果期望值高于实际值,则可能是资源不足。如果期望值低于实际值,则 Pod 可能会在关闭时卡住。如果问题仍然存在,请联系 UiPath 支持团队。

另请参阅:水平 Pod 自动调节

KubeHpaMaxedOut

给定服务的副本数量已达到最大值。当对集群发出的请求数量非常多时,就会发生这种情况。如果预计会有暂时的高流量,您可以静默此警示。但是,此警示表示集群已满,无法处理更多流量。如果集群上有更多资源容量可用,您可以按照以下说明增加服务的最大副本数:

# Find the horizontal autoscaler that controls the replicas of the desired resource
kubectl get hpa -A
# Increase the number of max replicas of the desired resource, replacing <namespace> <resource> and <maxReplicas>
kubectl -n <namespace> patch hpa <resource> --patch '{"spec":{"maxReplicas":<maxReplicas>}}'# Find the horizontal autoscaler that controls the replicas of the desired resource
kubectl get hpa -A
# Increase the number of max replicas of the desired resource, replacing <namespace> <resource> and <maxReplicas>
kubectl -n <namespace> patch hpa <resource> --patch '{"spec":{"maxReplicas":<maxReplicas>}}'

另请参阅:水平 Pod 自动调节

kubernetes-resources

KubeCPUOvercommit, KubeMemoryOvercommit

这些警告表明集群不能容忍节点故障。对于单节点评估集群,这是已知的,并且系统可能会静默这些警示。对于多节点 HA 就绪生产设置,当太多节点运行状况不佳而无法支持高可用性时,将触发这些警示,并指示应将节点恢复正常状态或进行更换。

KubeCPUQuotaOvercommit, KubeMemoryQuotaOvercommit, KubeQuotaAlmostFull, KubeQuotaFullyUsed, KubeQuotaExceeded

这些警示与通过自定义添加的命名空间资源配额有关,这些配额仅存在于集群中。命名空间资源配额不会作为 Automation Suite 安装的一部分添加。

另请参阅:资源配额

AggregatedAPIErrors, AggregatedAPIDown, KubeAPIDown, KubeAPITerminatedRequests

指示 Kubernetes 控制平面存在问题。检查主节点的运行状况,解决所有未解决的问题,如果问题持续存在,请联系 UiPath 支持团队。

另请参阅:

Kubernetes API

Kubernetes API 聚合层

kubernetes-system-kubelet

KubeNodeNotReady, KubeNodeUnreachable, KubeNodeReadinessFlapping, KubeletPlegDurationHigh, KubeletPodStartUpLatencyHigh, KubeletDown

这些警示表示节点存在问题。在多节点 HA 就绪生产集群中,系统可能会将 Pod 重新安排在其他节点上。如果问题仍然存在,则应删除并排空节点,以保持集群的良好运行状况。在没有额外容量的集群中,应首先将另一个节点加入集群。

KubeletTooManyPods

指定节点上运行的 Pod 过多。

到集群。

kubernetes-system

KubeVersionMismatch

正在运行的 Kubernetes 组件有不同的语义版本。发生这种情况的原因可能是 Kubernetes 升级失败。

KubeClientErrors

Kubernetes API 服务器客户端遇到超过 1% 的错误。运行此客户端的节点或 Kubernetes API 服务器本身可能存在问题。

etdc 警示

EtcdInsufficientMembers

此警示表示 etcd 集群的成员数量不足。 请注意,集群必须具有奇数个成员。 此警示的严重性非常严重。

确保集群中有奇数个服务器节点,并且所有节点都正常运行。

EtcdNoLeader

此警示显示 etcd 集群没有领导者。 此警示的严重性非常严重。

EtcdHighNumberOfLeaderChanges

此警示表示 etcd 领导者在 10 分钟内更改了两次以上。 这是一个警告。

EtcdHighNumberOfFailedGrpcRequests

此警示表示在 etcd 中检测到一定百分比的 GRPC 请求失败。

EtcdGrpcRequestsSlow

此警示表示 etcd GRPC 请求速度很慢。 这是一个警告。

EtcdHighNumberOfFailedHttpRequests

此警示表示在 etcd 中检测到一定百分比的 HTTP 失败。

EtcdHttpRequestsSlow

此警示表示 HTTP 请求速度减慢。 这是一个警告。

EtcdMemberCommunicationSlow

此警示表示 etcd 成员通信速度变慢。 这是一个警告。

EtcdHighNumberOfFailedProposals

此警示表示 etcd 服务器在过去一小时内收到了超过 5 个失败的提议。 这是一个警告。

EtcdHighFsyncDurations

此警示表示 etcd WAL fsync 持续时间正在增加。 这是一个警告。

EtcdHighCommitDurations

此警示表示 etcd 提交持续时间正在增加。 这是一个警告。

kube-api

KubernetesApiServerErrors

此警示表示 Kubernetes API 服务器的错误率很高。 此问题可能会导致其他故障,因此建议您主动调查此问题。

使用kubectl logs <pod-name> -n kube-system命令检查api-server Pod 的日志,以找出问题的根本原因。

徽标
获取您需要的帮助
徽标
了解 RPA - 自动化课程
徽标
UiPath Community 论坛
Uipath 白色徽标
信任与安全
© 2005-2023 UiPath. All rights reserved.