- 概述
- 要求
- 安装
- 安装后
- 集群管理
- 监控和警示
- 迁移和升级
- 特定于产品的配置
- 最佳实践和维护
- 故障排除
- 如何在安装过程中对服务进行故障排除
- 如何卸载集群
- 如何清理离线工件以改善磁盘空间
- 如何清除 Redis 数据
- 如何启用 Istio 日志记录
- 如何手动清理日志
- 如何清理存储在 sf-logs 存储桶中的旧日志
- 如何禁用 AI Center 的流日志
- 如何对失败的 Automation Suite 安装进行调试
- 如何在升级后从旧安装程序中删除映像
- 如何自动清理 Longhorn 快照
- 如何禁用 TX 校验和卸载
- 如何手动将 ArgoCD 日志级别设置为 Info
- 如何为外部注册表生成已编码的 pull_secret_value
- 如何解决 TLS 1.2 中的弱密码问题
- 如何使用证书
- 如何使用集群内对象存储 (Ceph) 收集 DU 使用情况数据
- 如何在离线环境中安装 RKE2 SELinux
- 如何清理 NFS 服务器上的旧差异备份
- 无法获取沙盒映像
- Pod 未显示在 ArgoCD 用户界面中
- Redis 探测器失败
- RKE2 服务器无法启动
- 在 UiPath 命名空间中找不到密码
- ArgoCD 在首次安装后进入“进行中”状态
- 访问 ArgoCD 只读帐户时出现问题
- MongoDB Pod 处于 CrashLoopBackOff 状态或在删除后处于“等待 PVC 配置”状态
- 集群还原或回滚后服务运行状况不佳
- Pod 在 Init:0/X 中卡住
- Prometheus 处于 CrashLoopBackoff 状态,并出现内存不足 (OOM) 错误
- 监控仪表板中缺少 Ceph-rook 指标
- Pod 无法在代理环境中与 FQDN 通信
- 无法配置升级后的电子邮件警示
- 无正常的上游问题
- 使用 Automation Suite 诊断工具
- 使用 Automation Suite 支持捆绑包
- 探索日志

Linux 版 Automation Suite 安装指南
当 Automation Suite 出现任何问题时,首先要使用 Automation Suite 诊断工具。 它会检查不同所需组件的运行状况,并提供综合报告。
在运行 Automation Suite 诊断工具之前,请导航到安装程序文件夹。您可以在以下位置或下载安装程序的任何位置找到安装程序:
cd /opt/UiPathAutomationSuite/{version}/installercd /opt/UiPathAutomationSuite/{version}/installer要开始使用 Automation Suite 诊断工具,请运行以下命令:
./Support-Tools/diagnostics-tool/diagnostics-report.sh./Support-Tools/diagnostics-tool/diagnostics-report.sh下表列出了 Automation Suite 诊断工具执行的检查。请注意,您可以在集群中的任何节点以及外部节点上运行该脚本。
|
节点 |
检查 |
|---|---|
|
主节点 |
|
|
代理节点 |
|
|
外部计算机 |
注意:要从外部计算机运行脚本,请先为集群设置适当的
kubeconfig 上下文,然后将 -e 标志传递给脚本 bash diagnostics-report.sh -e。
|
Automation Suite 诊断工具生成的示例报告。
信息日志
绿色的 INFO 日志显示所需的检查已通过。但是,您仍应正确检查磁盘/内存的使用情况,以避免隐藏的错误。
警告消息
即使这些消息并不表示高风险,您也可能需要纠正它们,因为在某些情况下它们可能会影响某些服务。
错误消息
您必须修复这些消息描述的问题,因为它们会影响集群中的某些服务。
Rke2-server 或 Rke2-agent 服务关闭
如果这些服务关闭,则意味着节点已关闭。尝试使用 systemctl restart <service-name> 命令来重新启动服务,因为这应该可以解决问题。
装载于 /var/lib 的目录大小
/var/lib 中装载的目录大小,因为 Kubernetes 使用它来存储其数据。如果目录已满,则可能会出现各种问题。为防止出现这些问题,请确保增加其大小。
Rke2 版本
rke2 版本以供参考。
磁盘压力或内存压力
对于所有节点,我们指定它们是处于磁盘压力之下,还是内存压力之下。如果发生这种情况,这些节点上的工作负载可能会开始出现问题。检查这些节点上是否正在运行任何其他正在消耗资源的流程,如果是这种情况,请将其删除。
Ceph 服务状态
我们使用 Ceph 作为 S3 对象存储,用于存储来自不同应用程序的日志和文件。您可以查看其服务的状态。如果它们已关闭,则可能必须重新启动它们。请务必同时检查 Ceph 的磁盘使用情况是否已满。
端口 443 和 31443
443 和 31443 端口。报告会指出它们是否不可访问。如果指向此处,请确保打开相应的端口。
证书有效性
该工具会检查上传的证书对于给定的主机名是否有效,以及是否未过期。如果证书不符合这些条件,则会发生错误。为防止出现这种情况,请务必检查您上传的证书,并在需要时进行更改。
GPU
由于某些服务要求集群中的某些节点存在 GPU,因此 Automation Suite 诊断工具会检查是否存在 GPU 节点并打印此类节点的数量。如果您期望 GPU 节点存在,但它们没有显示在此处,则意味着 GPU 设置中出现了问题。
RabbitMQ 和 DockerRegistry
RabbitMQ 和 DockerRegistry 是某些服务使用的两个重要组件。如果其中任何一个出现故障,您需要调查问题并重新启动。
ArgoCD 服务关闭
ArgoCD 是我们的应用程序生命周期管理 (ALM) 工具。如果其任何服务关闭,则其他应用程序可能已过期或存在其他问题。恢复这些服务很重要,并且可能需要进一步调试。
ArgoCD 应用程序缺失或降级
Automation Suite 诊断工具显示 ArgoCD 应用程序是否丢失和降级。
- 如果缺少应用程序,请转到 ArgoCD 用户界面并进行同步。
- 如果应用程序降级,则需要额外调试以调查 ArgoCD 引发的错误