- 概述
- 要求
- 安装
- 安装后
- 集群管理
- 监控和警示
- 使用监控堆栈
- 警示 runbook
- 迁移和升级
- 特定于产品的配置
- 最佳实践和维护
- 故障排除

Automation Suite 安装指南
使用监控堆栈
linkAutomation Suite 集群的监控堆栈包括集成在 Rancher Cluster Explorer 用户界面中的 Prometheus、Grafana 和 Alertmanager。
节点故障可能会导致 Kubernetes 关闭,从而中断 Prometheus 警示。为防止出现这种情况,我们建议在 RKE2 服务器上设置单独的警示。
本页描述了一系列监控方案。有关更多详细信息,请参阅有关使用 Rancher 监控的官方 Rancher 文档。
使用收集器将指标导出到第三方工具时,如果启用应用程序监控,可能会中断 Automation Suite 的正常运行。
访问 Rancher 监控仪表板
link- 通过
https://monitoring.{cluster_host}
访问 Rancher Cluster Explorer。系统提示何种屏幕取决于您是否是第一次连接 Rancher Server。 - 输入密码。两种情况下的密码都相同。可以使用以下命令来完成此操作:
kubectl get secret -n cattle-system rancher-admin-password -o jsonpath='{.data.password}' | base64 -d && echo
kubectl get secret -n cattle-system rancher-admin-password -o jsonpath='{.data.password}' | base64 -d && echo - 单击 Rancher Server 主页上的“本地”链接,打开 Cluster Explorer。
- 单击侧边栏上的“监控”菜单。
检查当前触发的警示
link在监控仪表板中,检查底部窗格中是否有当前触发的警示。以下屏幕截图显示了当前触发的几个警示。
静默警示
link如果警示过于嘈杂,您可以将其静音。为此,请执行以下步骤:
- 选择 监控 仪表板左上角的“警示管理器” 图块。系统将显示以下屏幕:
- 找到相关警示,然后选择“静默”。
- 填写“创建者”和“注释”详细信息,然后选择“创建”。警示应该不会再显示在监控仪表板上,也应该不会报告给任何已配置的收件人。
向外部接收器发送警示
link强烈建议您设置外部警示接收器。这样,警示将在发生时推送,您无需刷新监控仪表板即可查看最新的警示。
有关如何向外部接收器发送警示的详细信息,请参阅警示管理器接收器配置的相关 Rancher 文档。
除了接收器外,您还必须配置至少一个使用该接收器的路由。路由定义了警示的分组方式,以及会将哪些警示发送给接收器。请参阅 Rancher 文档中的警示管理器路由配置。
有关使用 Slack 接收器时如何显示警示的示例,请参见下文。单击“警示管理器”的链接将带您进入警示管理器控制台,在该控制台中您可以将警示静音,并且还有触发警示的 Prometheus 表达式的更多链接。单击 Runbook URL 将转到此页面,其中包含特定的修复说明。向其他外部接收器发送警示时,也会显示这些链接。
访问 Grafana 仪表板
link在“监控”仪表板上,单击“Grafana”图块。现在将显示“Grafana”仪表板。
监控服务网格
link您可以通过以下 Grafana 仪表板监控 Istio 服务网格:Istio 网格和 Istio 工作负载。
Istio 网格仪表板
此仪表板显示所选时间段内整个服务网格的整体请求量以及 400 和 500 错误率。数据显示在窗口的右上角。有关此信息,请参阅顶部的 4 张图表。
它还显示每项服务在过去一分钟内的即时成功率。请注意,成功率为 NaN 表示该服务当前未提供流量。
Istio 工作负载仪表板
此仪表板显示窗口右上角所选时间范围内的流量指标。
使用仪表板顶部的选取器深入了解特定的工作负载。特别值得一提的是 UiPath 命名空间。
顶部显示整体指标,“入站工作负载”部分根据来源分离流量,“出站服务”部分根据目标分离流量。
监控持久卷
link您可以通过 Kubernetes/持久卷仪表板监控持久卷。您可以跟踪每个卷的可用空间和已用空间。
您还可以通过单击 Cluster Explore 的“存储”菜单中的“持久卷”项目来检查每个卷的状态。
监控硬件利用率
link要检查每个节点的硬件利用率,您可以使用节点仪表板。可以使用 CPU、内存、磁盘和网络上的数据。
您可以使用 Kubernetes/计算资源/命名空间(工作负载)仪表板监控特定工作负载的硬件利用率。选择 UiPath 命名空间以获取所需的数据。
创建可共享的 Grafana 图表可视化快照
link- 选择图表标题旁边的向下箭头,然后选择“共享” 。
- 选择快照选项卡,然后设置快照名称、过期和超时。
- 选择“发布到快照.raintank.io”。
有关更多详细信息,请参阅有关共享仪表板的 Grafana 文档。
创建自定义持久性 Grafana 仪表板
link有关如何创建自定义持久性 Grafana 仪表板的详细信息,请参阅 Rancher 文档。
对 Grafana 的管理员访问权限
link在 Automation Suite 集群中,通常不需要对 Grafana 的管理员访问权限,因为在默认情况下,匿名用户可以读取访问仪表板,而创建自定义持久性仪表板必须使用本文档前面链接的 Kubernetes 原生说明。
不过,使用以下说明可以对 Grafana 进行管理员访问。
可以按如下方式检索 Grafana 管理员访问权限的默认用户名和密码:
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-user}' | base64 -d && echo
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-password}' | base64 -d && echo
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-user}' | base64 -d && echo
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-password}' | base64 -d && echo
请注意,在高可用性 Automation Suite 集群中存在多个 Grafana Pod,以便在节点出现故障以及进行大量读取查询时实现不间断的读取访问。 这与管理员访问权限不兼容,因为 Pod 不共享会话状态,并且登录需要它。 为了解决此问题,需要管理员访问权限时,必须将 Grafana 副本的数量临时增加到 1。 请参阅有关如何扩展 Grafana 副本数量的说明:
# scale down
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=1
# scale up
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=2
# scale down
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=1
# scale up
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=2
查询 Prometheus
link创建自定义警示
link您可以使用带有布尔值表达式的 Prometheus 查询创建自定义警示。
- 为此,请在监控仪表板的“高级”菜单中单击“Prometheus 规则”。
- 单击窗口右上角的“创建”,以创建新的警示,然后按照 Rancher 文档进行操作:Prometheus 规则
- 当警示触发时,它应显示在监控仪表板上。此外,它将路由到任何已配置的接收器。
监控 Kubernetes 资源状态
link要查看 Pod、部署、状态副本集等的状态,可以使用 Cluster Explorer 用户界面。这与登录到 Rancher-Server 端点后访问的登录页面相同。主页将显示摘要,并在左侧向下钻取每种资源类型的特定详细信息。请注意页面顶部的命名空间选取器。此仪表板也可以替换为 Lens 工具。
将 Prometheus 指标导出到外部系统
linkPrometheus 使用 Prometheus 远程写入功能收集 Prometheus 指标并将其导出到外部系统。
要在 Automation Suite 集群上配置 remote_write
,请执行以下操作:
- 连接到 ArgoCD。
- 单击 “应用程序”。
- 导航到 结构安装程序。
- 打开“ 应用程序详细信息 ”面板并禁用 自我修复。
- 导航到 rancher-monitoring 应用程序。
- 打开“应用程序详细信息”面板 >“清单”选项卡。
- 单击“编辑”,导航到“值”>“Prometheus”>“Prometheus 规范”部分。
- 添加所需的
remoteWrite
配置。探索远程写入功能的可用配置。
- 保存新配置。在应用新配置之前,rancher-monitoring 应用程序将显示“无法同步”。注意:Prometheus 无需重新启动即可应用新的远程写入配置。
- 测试所需的远程写入集成。返回到步骤 8 以添加新配置。