automation-suite
2023.4
false
- 概述
- 要求
- 安装
- 安装后
- 集群管理
- 监控和警示
- 迁移和升级
- 特定于产品的配置
- 最佳实践和维护
- 故障排除
Prometheus 处于 CrashLoopBackoff 状态,并出现内存不足 (OOM) 错误
重要 :
请注意此内容已使用机器翻译进行了部分本地化。
Linux 版 Automation Suite 安装指南
Last updated 2024年9月5日
Prometheus 处于 CrashLoopBackoff 状态,并出现内存不足 (OOM) 错误
要解决此问题,请执行以下步骤:
-
通过更新
resource.exclusions
来更新argocd configmap
以忽略service-monitors
。-
创建旧
configmap
的备份:kubectl get configmap argocd-cm -n argocd -o yaml >> argocd-cm-old.yaml
kubectl get configmap argocd-cm -n argocd -o yaml >> argocd-cm-old.yaml - 编辑
argocd-cm
:kubectl edit configmap argocd-cm -n argocd
kubectl edit configmap argocd-cm -n argocd - 为
resource.exclusions
添加新的数据条目:data: resource.exclusions: | - apiGroups: - monitoring.coreos.com kinds: - ServiceMonitor clusters: - "*"
data: resource.exclusions: | - apiGroups: - monitoring.coreos.com kinds: - ServiceMonitor clusters: - "*"
-
- 删除
istio-system
命名空间下的envoy-stats-monitor
服务监控:kubectl -n istio-system delete servicemonitor envoy-stats-monitor
kubectl -n istio-system delete servicemonitor envoy-stats-monitor - 强制删除 Prometheus Pod:
kubectl delete pod prometheus-rancher-monitoring-prometheus-0 -n cattle-monitoring-system kubectl delete pod prometheus-rancher-monitoring-prometheus-1 -n cattle-monitoring-system
kubectl delete pod prometheus-rancher-monitoring-prometheus-0 -n cattle-monitoring-system kubectl delete pod prometheus-rancher-monitoring-prometheus-1 -n cattle-monitoring-system - 等待
cattle-monitoring-system
下的 Prometheus Pod 成功重新启动。
重要提示:删除
wal
和 chunks_head
目录会导致丢失在累积这些文件期间收集的所有监控数据。但是,Prometheus 再次启动并运行后,任何新的警示和指标数据都将可以访问。