- 概述
- 要求
- 推荐:部署模板
- 手动:准备安装
- 手动:准备安装
- 步骤 1:为离线安装配置符合 OCI 的注册表
- 步骤 2:配置外部对象存储
- 步骤 3:配置 High Availability Add-on
- 步骤 4:配置 Microsoft SQL Server
- 步骤 5:配置负载均衡器
- 步骤 6:配置 DNS
- 步骤 7:配置磁盘
- 步骤 8:配置内核和操作系统级别设置
- 步骤 9:配置节点端口
- 步骤 10:应用其他设置
- 步骤 12:验证并安装所需的 RPM 包
- 步骤 13:生成 cluster_config.json
- 证书配置
- 数据库配置
- 外部对象存储配置
- 预签名 URL 配置
- 符合 OCI 的外部注册表配置
- Disaster Recovery:主动/被动和主动/主动配置
- High Availability Add-on 配置
- 特定于 Orchestrator 的配置
- Insights 特定配置
- Process Mining 特定配置
- Document Understanding 特定配置
- Automation Suite Robot 特定配置
- 监控配置
- 可选:配置代理服务器
- 可选:在多节点 HA 就绪生产集群中启用区域故障恢复
- 可选:传递自定义 resolv.conf
- 可选:提高容错能力
- install-uipath.sh 参数
- 添加具有 GPU 支持的专用代理节点
- 为 Task Mining 添加专用代理节点
- 连接 Task Mining 应用程序
- 为 Automation Suite Robot 添加专用代理节点
- 步骤 15:为离线安装配置临时 Docker 注册表
- 步骤 16:验证安装的先决条件
- 手动:执行安装
- 安装后
- 集群管理
- 监控和警示
- 迁移和升级
- 特定于产品的配置
- 最佳实践和维护
- 故障排除
- 如何在安装过程中对服务进行故障排除
- 如何卸载集群
- 如何清理离线工件以改善磁盘空间
- 如何清除 Redis 数据
- 如何启用 Istio 日志记录
- 如何手动清理日志
- 如何清理存储在 sf-logs 存储桶中的旧日志
- 如何禁用 AI Center 的流日志
- 如何对失败的 Automation Suite 安装进行调试
- 如何在升级后从旧安装程序中删除映像
- 如何禁用 TX 校验和卸载
- 如何从 Automation Suite 2022.10.10 和 2022.4.11 升级到 2023.10.2
- 如何手动将 ArgoCD 日志级别设置为 Info
- 如何扩展 AI Center 存储
- 如何为外部注册表生成已编码的 pull_secret_value
- 如何解决 TLS 1.2 中的弱密码问题
- 单节点升级在结构阶段失败
- 从 2021.10 自动升级后,集群运行状况不佳
- 由于 Ceph 运行状况不佳,升级失败
- 由于空间问题,RKE2 未启动
- 卷无法装载,且仍处于附加/分离循环状态
- 由于 Orchestrator 数据库中的传统对象,升级失败
- 并行升级后,发现 Ceph 集群处于降级状态
- Insights 组件运行状况不佳导致迁移失败
- Apps 服务升级失败
- 就地升级超时
- Docker 注册表迁移卡在 PVC 删除阶段
- 升级到 2023.10 或更高版本后 AI Center 配置失败
- 在离线环境中升级失败
- 升级期间 SQL 验证失败
- 快照-控制器-crds Pod 在升级后处于 CrashLoopBackOff 状态
- Longhorn REST API 端点升级/重新安装错误
- 运行诊断工具
- 使用 Automation Suite 支持捆绑包
- 探索日志
存储警示
警告:可用空间少于 30%,可能会在四天内填满。
“严重”:可用空间小于 10%。
对于空间不足的任何服务,数据可能难以恢复,因此应在可用空间达到 0% 之前调整卷的大小。
有关说明,请参阅 配置集群。
对于特定于 Prometheus 的警示,请参阅 Prometheus 存储 使用情况以获取更多详细信息和说明。
此警示表示 Ceph 存储集群处于错误状态的时间已超过 10m。
rook-ceph-mgr
作业处于错误状态的时间过长。 检查在此警示之前可能已触发的其他警示,并首先对其进行故障排除。
此警示表示 Ceph 存储集群利用率已超过 75%,将在 85% 时变为只读状态。
如果触发此警示,请通过删除 AI Center 或 Task Mining 中一些未使用的数据集,在 Ceph 中释放一些空间,或者扩展可用于 Ceph PVC 的存储。
在调整 PVC 的大小之前,请确保您满足存储要求。 有关详细信息,请参阅 评估存储需求。
此警示表示 Ceph 存储集群利用率已超过 80%,将在 85% 时变为只读状态。
如果触发此警示,请通过删除 AI Center 或 Task Mining 中一些未使用的数据集,在 Ceph 中释放一些空间,或者扩展可用于 Ceph PVC 的存储。
在调整 PVC 的大小之前,请确保您满足存储要求。 有关详细信息,请参阅 评估存储需求。
此警示表示 Ceph 存储集群利用率已超过 85%,现在将变为只读状态。 请立即释放一些空间或扩展存储集群。
如果触发此警示,请通过删除 AI Center 或 Task Mining 中一些未使用的数据集,在 Ceph 中释放一些空间,或者扩展可用于 Ceph PVC 的存储。
在调整 PVC 的大小之前,请确保您满足存储要求。 有关详细信息,请参阅 评估存储需求。
当警示严重性为 Critical 时,可用空间小于 20%。
对于空间不足的任何服务,数据可能难以恢复,因此应在可用空间达到 10% 之前调整卷的大小。请参阅以下说明:配置集群。
此警示表示 Ceph 存储集群利用率已超过 75%,将在 85% 时变为只读状态。
如果触发此警示,请通过删除 AI Center 或 Task Mining 中一些未使用的数据集,在 Ceph 中释放一些空间,或者扩展可用于 Ceph PVC 的存储。
在调整 PVC 的大小之前,请确保您满足存储要求。 有关详细信息,请参阅 评估存储需求。
此警示表示 Ceph 存储集群利用率已超过 75%,将在 85% 时变为只读状态。
如果触发此警示,请通过删除 AI Center 或 Task Mining 中一些未使用的数据集,在 Ceph 中释放一些空间,或者扩展可用于 Ceph PVC 的存储。
在调整 PVC 的大小之前,请确保您满足存储要求。 有关详细信息,请参阅 评估存储需求。
如果触发此警示,请通过删除 AI Center 或 Task Mining 中一些未使用的数据集,在 Ceph 中释放一些空间,或者扩展可用于 Ceph PVC 的存储。
在调整 PVC 大小之前,请确保满足存储要求。有关详细信息,请参阅评估存储需求。
此警示表示 Ceph 存储池使用率已超过 90%。
如果触发此警示,请通过删除 AI Center 或 Task Mining 中一些未使用的数据集,在 CEPH 中释放一些空间,或者按照“调整 PVC 大小”中的说明扩展可用于 Ceph PVC 的存储。
在调整 PVC 的大小之前,请确保您满足存储要求。 有关详细信息,请参阅 评估存储需求。
/var/lib/rancher
分区的可用空间小于:
- 35% – 警示的严重性为警告
- 25% – 警示的严重性非常严重
如果触发此警示,请增加磁盘大小。
/var/lib/kubelet
分区的可用空间小于:
- 35% – 警示的严重性为警告
-
25% – 警示的严重性非常严重
如果触发此警示,请增加磁盘大小。
- kubernetes-system
- KubernetesDiskPressure
- KubernetesMemoryPressure
- KubePersistentVolumeFillingUp
- KubePersistentVolumeErrors
- node-exporter
- NodeFilesystemSpaceFillingUp
- NodeFilesystemAlmostOutOfSpace
- NodeFilesystemFilesFillingUp
- NodeFilesystemAlmostOutOfFiles
- NodeNetworkReceiveErrs
- NodeNetworkTransmitErrs
- ceph.rules、cluster-state-alert.rules
- CephClusterErrorState
- CephMonQuorumAtRisk
- cluster-utilization-alert.rules
- CephClusterNearFull
- CephClusterCriticallyFull
- CephClusterReadOnly
- osd-alert.rules
- CephOSDCriticallyFull
- CephOSDNearFull
- PersistentVolumeUsageNearFull
- persistent-volume-alert.rules
- PersistentVolumeUsageCritical
- pool-quota.rules
- CephPoolQuotaBytesCriticallyExhausted
- host-disk
- LowDiskForRancherPartition
- LowDiskForKubeletPartition
- LowDiskForVarPartition