Automation Suite
2023.10
False
- 概述
- 要求
- 推荐:部署模板
- 手动:准备安装
- 手动:准备安装
- 步骤 1:为离线安装配置符合 OCI 的注册表
- 步骤 2:配置外部对象存储
- 步骤 3:配置 High Availability Add-on
- 步骤 4:配置 Microsoft SQL Server
- 步骤 5:配置负载均衡器
- 步骤 6:配置 DNS
- 步骤 7:配置内核和操作系统级别设置
- Step 8: Configuring the disks
- 步骤 9:配置节点端口
- 步骤 10:应用其他设置
- 步骤 12:验证并安装所需的 RPM 包
- 步骤 13:生成 cluster_config.json
- 证书配置
- 数据库配置
- 外部对象存储配置
- 预签名 URL 配置
- 符合 OCI 的外部注册表配置
- Disaster Recovery:主动/被动和主动/主动配置
- High Availability Add-on 配置
- 特定于 Orchestrator 的配置
- Insights 特定配置
- Process Mining 特定配置
- Document Understanding 特定配置
- Automation Suite Robot 特定配置
- 监控配置
- 可选:配置代理服务器
- 可选:在多节点 HA 就绪生产集群中启用区域故障恢复
- 可选:传递自定义 resolv.conf
- 可选:提高容错能力
- install-uipath.sh 参数
- 添加具有 GPU 支持的专用代理节点
- 为 Task Mining 添加专用代理节点
- 连接 Task Mining 应用程序
- 为 Automation Suite Robot 添加专用代理节点
- Step 15: Configuring the temporary Docker registry for offline installations
- Step 16: Validating the prerequisites for the installation
- 手动:执行安装
- 安装后
- 集群管理
- 监控和警示
- 迁移和升级
- 特定于产品的配置
- 最佳实践和维护
- 故障排除
并行升级后,发现 Ceph 集群处于降级状态
Linux 版 Automation Suite 安装指南
上次更新日期 2024年4月19日
并行升级后,发现 Ceph 集群处于降级状态
有时,在并行升级后,Rook-ceph 应用程序在 ArgoCD 门户中进入“同步失败”状态。这是由于上游 Ceph 问题。
要确定状态降级的原因,请运行以下命令:
kubectl -n rook-ceph exec deploy/rook-ceph-tools -- ceph -s
kubectl -n rook-ceph exec deploy/rook-ceph-tools -- ceph -s
如果您收到类似于以下示例的输出,则问题与 Rook-Ceph 运行状况有关:
cluster:
id: 936b2e58-1014-4237-b2a5-6e95449a9ce8
health: HEALTH_ERR
Module 'devicehealth' has failed: disk I/O error
services:
mon: 3 daemons, quorum a,b,c (age 11h)
mgr: b(active, since 37h), standbys: a
osd: 3 osds: 3 up (since 37h), 3 in (since 37h)
rgw: 2 daemons active (2 hosts, 1 zones)
data:
pools: 8 pools, 225 pgs
objects: 53.57k objects, 26 GiB
usage: 80 GiB used, 688 GiB / 768 GiB avail
pgs: 225 active+clean
io:
client: 561 KiB/s rd, 61 KiB/s wr, 316 op/s rd, 123 op/s wr
cluster:
id: 936b2e58-1014-4237-b2a5-6e95449a9ce8
health: HEALTH_ERR
Module 'devicehealth' has failed: disk I/O error
services:
mon: 3 daemons, quorum a,b,c (age 11h)
mgr: b(active, since 37h), standbys: a
osd: 3 osds: 3 up (since 37h), 3 in (since 37h)
rgw: 2 daemons active (2 hosts, 1 zones)
data:
pools: 8 pools, 225 pgs
objects: 53.57k objects, 26 GiB
usage: 80 GiB used, 688 GiB / 768 GiB avail
pgs: 225 active+clean
io:
client: 561 KiB/s rd, 61 KiB/s wr, 316 op/s rd, 123 op/s wr
要解决此问题,请执行以下步骤:
-
在输出代码片段中,识别处于活动状态的“Manager
mgr
”服务。在提供的示例中,mgr: b
被标记为活动。 -
要确定确切的 Pod 名称,请运行以下命令:
kubectl -n rook-ceph get pods | grep "rook-ceph-mgr-<active-manager-name>"
kubectl -n rook-ceph get pods | grep "rook-ceph-mgr-<active-manager-name>"该命令应返回类似于以下示例的输出,其中rook-ceph-mgr-b-6d7bdb4b54-zz47v
是管理器 Pod 名称:rook-ceph-mgr-b-6d7bdb4b54-zz47v 0/1 Init:0/1 0 3h55m
rook-ceph-mgr-b-6d7bdb4b54-zz47v 0/1 Init:0/1 0 3h55m -
通过运行以下命令删除活动管理器:
kubectl -n rook-ceph delete pod <active-manager-pod-name> // for example: kubectl -n rook-ceph delete pod rook-ceph-mgr-b-6d7bdb4b54-zz47v
kubectl -n rook-ceph delete pod <active-manager-pod-name> // for example: kubectl -n rook-ceph delete pod rook-ceph-mgr-b-6d7bdb4b54-zz47v
删除活动管理器会强制其重新启动,从而将 Ceph 集群状态转变为“正常运行”。