automation-suite
2024.10
true
- 概述
- 要求
- 推荐:部署模板
- 手动:准备安装
- 手动:准备安装
- 步骤 1:为离线安装配置符合 OCI 的注册表
- 步骤 2:配置外部对象存储
- 步骤 3:配置 High Availability Add-on
- 步骤 4:配置 Microsoft SQL Server
- 步骤 5:配置负载均衡器
- 步骤 6:配置 DNS
- 步骤 7:配置磁盘
- 步骤 8:配置内核和操作系统级别设置
- 步骤 9:配置节点端口
- 步骤 10:应用其他设置
- 步骤 12:验证并安装所需的 RPM 包
- 步骤 13:生成 cluster_config.json
- Cluster_config.json 示例
- 常规配置
- Profile configuration
- 证书配置
- 数据库配置
- 外部对象存储配置
- 预签名 URL 配置
- ArgoCD 配置
- 符合 OCI 的外部注册表配置
- Disaster Recovery:主动/被动和主动/主动配置
- High Availability Add-on 配置
- 特定于 Orchestrator 的配置
- Insights 特定配置
- Process Mining 特定配置
- Document Understanding 特定配置
- Automation Suite Robot 特定配置
- AI Center 特定配置
- 监控配置
- 可选:配置代理服务器
- 可选:在多节点 HA 就绪生产集群中启用区域故障恢复
- 可选:传递自定义 resolv.conf
- 可选:提高容错能力
- 添加具有 GPU 支持的专用代理节点
- 为 Task Mining 添加专用代理节点
- 连接 Task Mining 应用程序
- 为 Automation Suite Robot 添加专用代理节点
- 步骤 15:为离线安装配置临时 Docker 注册表
- 步骤 16:验证安装的先决条件
- 手动:执行安装
- 安装后
- 集群管理
- 监控和警示
- 迁移和升级
- 特定于产品的配置
- 最佳实践和维护
- 故障排除
- 单节点升级在结构阶段失败
- 由于 Ceph 运行状况不佳,升级失败
- 由于空间问题,RKE2 未启动
- 卷无法装载,且仍处于附加/分离循环状态
- 由于 Orchestrator 数据库中的传统对象,升级失败
- 并行升级后,发现 Ceph 集群处于降级状态
- Insights 组件运行状况不佳导致迁移失败
- Apps 服务升级失败
- 就地升级超时
- Docker 注册表迁移卡在 PVC 删除阶段
- AI Center provisioning failure after upgrading to 2023.10 or later
- 在离线环境中升级失败
- 升级期间 SQL 验证失败
- 快照-控制器-crds Pod 在升级后处于 CrashLoopBackOff 状态
- Orchestrator Pod 处于 CrashLoopBackOff 状态或多次重新启动
- 使用 Process Mining 运行高可用性
- 使用 Kerberos 登录时 Process Mining 挖掘失败
- 在灾难恢复后,DAPR 无法正常用于 Process Mining 和 Task Mining
- 无法使用 pyodbc 格式连接字符串连接到 AutomationSuite_ProcessMining_Warehouse 数据库
- Airflow 安装失败,并显示 sqlalchemy.exc.ArgumentError:无法从字符串“”中解析 rfc1738 URL
- 如何添加 IP 表格规则以使用 SQL Server 端口 1433
- 运行 CData Sync 的服务器不信任 Automation Suite 证书
- 运行诊断工具
- Using the Automation Suite support bundle
- 探索日志
Orchestrator Pod 处于 CrashLoopBackOff 状态或多次重新启动
Linux 版 Automation Suite 安装指南
Last updated 2024年11月14日
Orchestrator Pod 处于 CrashLoopBackOff 状态或多次重新启动
如果 Orchestrator Pod 处于 CrashLoopBackOff 状态或 1/2 多次重新启动后开始运行,则故障可能与对象存储提供程序 Ceph 的身份验证密钥有关。
要检查故障是否与 Ceph 相关,请运行以下命令:
kubectl -n uipath get pod -l app.kubernetes.io/component=orchestrator
kubectl -n uipath get pod -l app.kubernetes.io/component=orchestrator
如果此命令的输出类似于以下选项之一,则需要运行其他命令。
Option 1:
NAME READY STATUS RESTARTS AGE
orchestrator-6dc848b7d5-q5c2q 1/2 Running 2 6m1s
OR
Option 2
NAME READY STATUS RESTARTS AGE
orchestrator-6dc848b7d5-q5c2q 1/2 CrashLoopBackOff 6 16m
Option 1:
NAME READY STATUS RESTARTS AGE
orchestrator-6dc848b7d5-q5c2q 1/2 Running 2 6m1s
OR
Option 2
NAME READY STATUS RESTARTS AGE
orchestrator-6dc848b7d5-q5c2q 1/2 CrashLoopBackOff 6 16m
运行以下命令,验证失败是否与 Ceph 身份验证密钥有关:
kubectl -n uipath logs -l app.kubernetes.io/component=orchestrator | grep 'Error making request with Error Code InvalidAccessKeyId and Http Status Code Forbidden' -o
kubectl -n uipath logs -l app.kubernetes.io/component=orchestrator | grep 'Error making request with Error Code InvalidAccessKeyId and Http Status Code Forbidden' -o
如果上述命令的输出中包含字符串
Error making request with Error Code InvalidAccessKeyId and Http Status Code Forbidden
,则失败的原因在于 Ceph 身份验证密钥。
使用以下命令重新运行
rook-ceph-configure-script-job
和 credential-manager
作业:
kubectl -n uipath-infra get job "rook-ceph-configure-script-job" -o json | jq 'del(. | .spec.selector, .spec.template.metadata.labels)' | kubectl replace --force -f -
kubectl -n uipath-infra get job "credential-manager-job" -o json | jq 'del(. | .spec.selector, .spec.template.metadata.labels)' | kubectl replace --force -f -
kubectl -n uipath delete pod -l app.kubernetes.io/component=orchestrator
kubectl -n uipath-infra get job "rook-ceph-configure-script-job" -o json | jq 'del(. | .spec.selector, .spec.template.metadata.labels)' | kubectl replace --force -f -
kubectl -n uipath-infra get job "credential-manager-job" -o json | jq 'del(. | .spec.selector, .spec.template.metadata.labels)' | kubectl replace --force -f -
kubectl -n uipath delete pod -l app.kubernetes.io/component=orchestrator