automation-suite
2023.10
false
- 概述
- 要求
- 推荐:部署模板
- 手动:准备安装
- 手动:准备安装
- 步骤 1:为离线安装配置符合 OCI 的注册表
- 步骤 2:配置外部对象存储
- 步骤 3:配置 High Availability Add-on
- 步骤 4:配置 Microsoft SQL Server
- 步骤 5:配置负载均衡器
- 步骤 6:配置 DNS
- 步骤 7:配置磁盘
- 步骤 8:配置内核和操作系统级别设置
- 步骤 9:配置节点端口
- 步骤 10:应用其他设置
- 步骤 12:验证并安装所需的 RPM 包
- 步骤 13:生成 cluster_config.json
- 证书配置
- 数据库配置
- 外部对象存储配置
- 预签名 URL 配置
- 符合 OCI 的外部注册表配置
- Disaster Recovery:主动/被动和主动/主动配置
- High Availability Add-on 配置
- 特定于 Orchestrator 的配置
- Insights 特定配置
- Process Mining 特定配置
- Document Understanding 特定配置
- Automation Suite Robot 特定配置
- 监控配置
- 可选:配置代理服务器
- 可选:在多节点 HA 就绪生产集群中启用区域故障恢复
- 可选:传递自定义 resolv.conf
- 可选:提高容错能力
- install-uipath.sh 参数
- 添加具有 GPU 支持的专用代理节点
- 为 Task Mining 添加专用代理节点
- 连接 Task Mining 应用程序
- 为 Automation Suite Robot 添加专用代理节点
- 步骤 15:为离线安装配置临时 Docker 注册表
- 步骤 16:验证安装的先决条件
- 手动:执行安装
- 安装后
- 集群管理
- 监控和警示
- 迁移和升级
- 特定于产品的配置
- 最佳实践和维护
- 故障排除
- 如何在安装过程中对服务进行故障排除
- 如何卸载集群
- 如何清理离线工件以改善磁盘空间
- 如何清除 Redis 数据
- 如何启用 Istio 日志记录
- 如何手动清理日志
- 如何清理存储在 sf-logs 存储桶中的旧日志
- 如何禁用 AI Center 的流日志
- 如何对失败的 Automation Suite 安装进行调试
- 如何在升级后从旧安装程序中删除映像
- 如何禁用 TX 校验和卸载
- 如何从 Automation Suite 2022.10.10 和 2022.4.11 升级到 2023.10.2
- 如何手动将 ArgoCD 日志级别设置为 Info
- 如何扩展 AI Center 存储
- 如何为外部注册表生成已编码的 pull_secret_value
- 如何解决 TLS 1.2 中的弱密码问题
- 如何将应用程序日志转发到 Splunk
- 升级 Automation Suite 后重新安装或升级 Insights 时丢失数据
- 单节点升级在结构阶段失败
- 从 2021.10 自动升级后,集群运行状况不佳
- 由于 Ceph 运行状况不佳,升级失败
- 由于空间问题,RKE2 未启动
- 卷无法装载,且仍处于附加/分离循环状态
- 由于 Orchestrator 数据库中的传统对象,升级失败
- 并行升级后,发现 Ceph 集群处于降级状态
- Insights 组件运行状况不佳导致迁移失败
- Apps 服务升级失败
- 就地升级超时
- Docker 注册表迁移卡在 PVC 删除阶段
- 升级到 2023.10 或更高版本后 AI Center 配置失败
- 在离线环境中升级失败
- 升级期间 SQL 验证失败
- 快照-控制器-crds Pod 在升级后处于 CrashLoopBackOff 状态
- Longhorn REST API 端点升级/重新安装错误
- Task Mining 故障排除
- 运行诊断工具
- 使用 Automation Suite 支持捆绑包
- 探索日志
并行升级后,发现 Ceph 集群处于降级状态
Linux 版 Automation Suite 安装指南
上次更新日期 2025年1月23日
并行升级后,发现 Ceph 集群处于降级状态
有时,在并行升级后,Rook-ceph 应用程序在 ArgoCD 门户中进入“同步失败”状态。这是由于上游 Ceph 问题。
要确定状态降级的原因,请运行以下命令:
kubectl -n rook-ceph exec deploy/rook-ceph-tools -- ceph -s
kubectl -n rook-ceph exec deploy/rook-ceph-tools -- ceph -s
如果您收到类似于以下示例的输出,则问题与 Rook-Ceph 运行状况有关:
cluster:
id: 936b2e58-1014-4237-b2a5-6e95449a9ce8
health: HEALTH_ERR
Module 'devicehealth' has failed: disk I/O error
services:
mon: 3 daemons, quorum a,b,c (age 11h)
mgr: b(active, since 37h), standbys: a
osd: 3 osds: 3 up (since 37h), 3 in (since 37h)
rgw: 2 daemons active (2 hosts, 1 zones)
data:
pools: 8 pools, 225 pgs
objects: 53.57k objects, 26 GiB
usage: 80 GiB used, 688 GiB / 768 GiB avail
pgs: 225 active+clean
io:
client: 561 KiB/s rd, 61 KiB/s wr, 316 op/s rd, 123 op/s wr
cluster:
id: 936b2e58-1014-4237-b2a5-6e95449a9ce8
health: HEALTH_ERR
Module 'devicehealth' has failed: disk I/O error
services:
mon: 3 daemons, quorum a,b,c (age 11h)
mgr: b(active, since 37h), standbys: a
osd: 3 osds: 3 up (since 37h), 3 in (since 37h)
rgw: 2 daemons active (2 hosts, 1 zones)
data:
pools: 8 pools, 225 pgs
objects: 53.57k objects, 26 GiB
usage: 80 GiB used, 688 GiB / 768 GiB avail
pgs: 225 active+clean
io:
client: 561 KiB/s rd, 61 KiB/s wr, 316 op/s rd, 123 op/s wr
要解决此问题,请执行以下步骤:
-
在输出代码片段中,识别处于活动状态的“Manager
mgr
”服务。在提供的示例中,mgr: b
被标记为活动。 -
要确定确切的 Pod 名称,请运行以下命令:
kubectl -n rook-ceph get pods | grep "rook-ceph-mgr-<active-manager-name>"
kubectl -n rook-ceph get pods | grep "rook-ceph-mgr-<active-manager-name>"该命令应返回类似于以下示例的输出,其中rook-ceph-mgr-b-6d7bdb4b54-zz47v
是管理器 Pod 名称:rook-ceph-mgr-b-6d7bdb4b54-zz47v 0/1 Init:0/1 0 3h55m
rook-ceph-mgr-b-6d7bdb4b54-zz47v 0/1 Init:0/1 0 3h55m -
通过运行以下命令删除活动管理器:
kubectl -n rook-ceph delete pod <active-manager-pod-name> // for example: kubectl -n rook-ceph delete pod rook-ceph-mgr-b-6d7bdb4b54-zz47v
kubectl -n rook-ceph delete pod <active-manager-pod-name> // for example: kubectl -n rook-ceph delete pod rook-ceph-mgr-b-6d7bdb4b54-zz47v
删除活动管理器会强制其重新启动,从而将 Ceph 集群状态转变为“正常运行”。