- 概述
- 要求
- 安装
- 安装后
- 集群管理
- 监控和警示
- 使用监控堆栈
- 警示 runbook
- 迁移和升级
- 特定于产品的配置
- 最佳实践和维护
- 故障排除
使用监控堆栈
Automation Suite 集群的监控堆栈包括集成在 Rancher Cluster Explorer 用户界面中的 Prometheus、Grafana 和 Alertmanager。
节点故障可能会导致 Kubernetes 关闭,从而中断 Prometheus 警示。为防止出现这种情况,我们建议在 RKE2 服务器上设置单独的警示。
本页描述了一系列监控方案。有关更多详细信息,请参阅有关使用 Rancher 监控的官方 Rancher 文档。
使用收集器将指标导出到第三方工具时,如果启用应用程序监控,可能会中断 Automation Suite 的正常运行。
Automation Suite 集群的监控堆栈包括 Prometheus、Grafana、Alert Manager 和 Longhorn Dashboard。
本页描述了一系列监控方案。
有关更多详细信息,请参阅有关使用 Rancher 监控的官方 Rancher 文档。
您可以使用以下 URL 单独访问 Automation Suite 监控工具:
应用程序 |
工具 |
URL |
示例 |
---|---|---|---|
指标 |
Prometheus |
|
|
仪表板 |
Grafana |
|
|
警示管理 |
警示管理器 |
|
|
暂留块存储 |
Longhorn 仪表板 |
|
|
首次访问监控工具时,请使用以下默认凭据以管理员身份登录:
- 用户名: admin
- 密码:要检索密码,请运行以下命令:
kubectl get secrets/dex-static-credential -n uipath-auth -o "jsonpath={.data['password']}" | base64 -d
kubectl get secrets/dex-static-credential -n uipath-auth -o "jsonpath={.data['password']}" | base64 -d
要更新用于访问监控工具的默认密码,请执行以下步骤:
-
通过将
newpassword
替换为您的新密码来运行以下命令:password="newpassword" password=$(echo -n $password | base64) kubectl patch secret dex-static-credential -n uipath-auth --type='json' -p="[{'op': 'replace', 'path': '/data/password', 'value': '$password'}]"
password="newpassword" password=$(echo -n $password | base64) kubectl patch secret dex-static-credential -n uipath-auth --type='json' -p="[{'op': 'replace', 'path': '/data/password', 'value': '$password'}]" -
通过将
<cluster_config.json>
替换为配置文件的路径来运行以下命令:/opt/UiPathAutomationSuite/UiPath_Installer/install-uipath.sh -i <cluster_config.json> -f -o output.json --accept-license-agreement
/opt/UiPathAutomationSuite/UiPath_Installer/install-uipath.sh -i <cluster_config.json> -f -o output.json --accept-license-agreement
https://monitoring.fqdn/metrics
导航到 Prometheus,然后单击“警示”选项卡。您可以在此处看到 Automation Suite 中配置的所有警示。
要查看活动警示,请单击顶部的“触发”复选框和“显示注释”复选框,以筛选警示状态。您可以在此处看到当前触发的所有警示及其相应的消息。
.../UiPathAutomationSuite/UiPath_Installer/bin
中找到 uipathctl
。
要在安装后添加新的电子邮件配置,请运行以下命令:
./uipathctl config alerts add-email \
--name test \
--to "admin@example.com" \
--from "admin@example.com" \
--smtp server.mycompany.com \
--username admin \
--password somesecret \
--require-tls \
--ca-file <path_to_ca_file> \
--cert-file <path_to_cert_file> \
--key-file <path_to_key_file> \
--send-resolved
./uipathctl config alerts add-email \
--name test \
--to "admin@example.com" \
--from "admin@example.com" \
--smtp server.mycompany.com \
--username admin \
--password somesecret \
--require-tls \
--ca-file <path_to_ca_file> \
--cert-file <path_to_cert_file> \
--key-file <path_to_key_file> \
--send-resolved
标记 |
描述 |
示例 |
---|---|---|
|
电子邮件配置名称 |
|
|
收件人的电子邮件地址 |
|
|
发件人的电子邮件地址 |
|
|
SMTP 服务器 URL 或 IP 地址和端口号 |
|
|
身份验证用户名 |
|
|
身份验证密码 |
|
|
表示已在 SMTP 服务器上启用 TLS 的布尔值标志。 |
不适用 |
|
包含 SMTP 服务器的 CA 证书的文件路径。如果 CA 为私有,则这是可选项。 |
|
|
包含 SMTP 服务器证书的文件路径。如果证书为私有,则这是可选项。 |
|
|
包含 SMTP 服务器 CA 证书的文件路径。如果证书是私有,则这是必需项。 |
|
|
解决警示后发送电子邮件的布尔值标志。 |
不适用 |
要删除电子邮件配置,您必须运行以下命令。确保传递要删除的电子邮件配置的名称。
./uipathctl config alerts remove-email --name test
./uipathctl config alerts remove-email --name test
要访问 Grafana 仪表板,您必须检索凭据并使用它们进行登录:
-
用户名:
kubectl -n cattle-monitoring-system get secrets/rancher-monitoring-grafana -o "jsonpath={.data.admin-user}" | base64 -d; echo
kubectl -n cattle-monitoring-system get secrets/rancher-monitoring-grafana -o "jsonpath={.data.admin-user}" | base64 -d; echo -
密码:
kubectl -n cattle-monitoring-system get secrets/rancher-monitoring-grafana -o "jsonpath={.data.admin-password}" | base64 -d; echo
kubectl -n cattle-monitoring-system get secrets/rancher-monitoring-grafana -o "jsonpath={.data.admin-password}" | base64 -d; echo
您可以通过以下 Grafana 仪表板监控 Istio 服务网格:Istio 网格和 Istio 工作负载。
此仪表板显示所选时间段内整个服务网格的整体请求量以及 400 和 500 错误率。数据显示在窗口的右上角。有关此信息,请参阅顶部的 4 张图表。
它还显示每项服务在过去一分钟内的即时成功率。请注意,成功率为 NaN 表示该服务当前未提供流量。
您可以通过 Kubernetes/持久卷仪表板监控持久卷。您可以跟踪每个卷的可用空间和已用空间。
您还可以通过单击 Cluster Explore 的“存储”菜单中的“持久卷”项目来检查每个卷的状态。
要检查每个节点的硬件利用率,您可以使用节点仪表板。可以使用 CPU、内存、磁盘和网络上的数据。
您可以使用 Kubernetes/计算资源/命名空间(工作负载)仪表板监控特定工作负载的硬件利用率。选择 UiPath 命名空间以获取所需的数据。
- 单击图表标题旁边的向下箭头,然后选择“共享”。
- 单击“快照”选项卡,然后设置“快照名称”、“过期”和“超时”。
- 单击“发布”到 snapshot.raintank.io。
有关更多详细信息,请参阅有关共享仪表板的 Grafana 文档。
有关如何创建自定义持久性 Grafana 仪表板的详细信息,请参阅 Rancher 文档。
在 Automation Suite 集群中,通常不需要对 Grafana 的管理员访问权限,因为在默认情况下,匿名用户可以读取访问仪表板,而创建自定义持久性仪表板必须使用本文档上面链接的 Kubernetes 原生说明。
不过,使用以下说明可以对 Grafana 进行管理员访问。
可以按如下方式检索 Grafana 管理员访问权限的默认用户名和密码:
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-user}' | base64 -d && echo
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-password}' | base64 -d && echo
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-user}' | base64 -d && echo
kubectl get secret -n cattle-monitoring-system rancher-monitoring-grafana -o jsonpath='{.data.admin-password}' | base64 -d && echo
请注意,在高可用性 Automation Suite 集群中存在多个 Grafana Pod,以便在节点出现故障以及进行大量读取查询时实现不间断的读取访问。这与管理员访问权限不兼容,因为 Pod 不共享会话状态,并且登录需要它。为了解决此问题,需要管理员访问权限时,必须将 Grafana 副本的数量临时增加到 1。有关如何扩展 Grafana 副本数量的说明,请参见下文:
# scale down
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=1
# scale up
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=2
# scale down
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=1
# scale up
kubectl scale -n cattle-monitoring-system deployment/rancher-monitoring-grafana --replicas=2
您可以使用带有布尔值表达式的 Prometheus 查询创建自定义警示。
- 为此,请在监控仪表板的“高级”菜单中单击“Prometheus 规则”。
- 单击窗口右上角的“创建”,以创建新的警示,然后按照 Rancher 文档进行操作:Prometheus 规则
- 当警示触发时,它应显示在监控仪表板上。此外,它将路由到任何已配置的接收器。
要查看 Pod、部署、状态副本集等的状态,可以使用 Cluster Explorer 用户界面。这与登录到 Rancher-Server 端点后访问的登录页面相同。主页将显示摘要,并在左侧向下钻取每种资源类型的特定详细信息。请注意页面顶部的命名空间选取器。此仪表板也可以替换为 Lens 工具。
Prometheus 使用 Prometheus 远程写入功能收集 Prometheus 指标并将其导出到外部系统。
要在 Automation Suite 集群上配置 remote_write
,请执行以下操作: