automation-suite
2022.10
false
- 概述
- 要求
- 安装
- 安装后
- 集群管理
- 监控和警示
- 迁移和升级
- 特定于产品的配置
- 最佳实践和维护
- 故障排除
- 无法获取沙盒映像
- Pod 未显示在 ArgoCD 用户界面中
- Redis 探测器失败
- RKE2 服务器无法启动
- 在 UiPath 命名空间中找不到密码
- ArgoCD 在首次安装后进入“进行中”状态
- 意外不一致;手动运行 fsck
- MongoDB Pod 处于 CrashLoopBackOff 状态或在删除后处于“等待 PVC 配置”状态
- MongoDB Pod 从 4.4.4-ent 升级到 5.0.7-ent 失败
- 集群还原或回滚后服务运行状况不佳
- Pod 在 Init:0/X 中卡住
- Prometheus 处于 CrashLoopBackoff 状态,并出现内存不足 (OOM) 错误
- 监控仪表板中缺少 Ceph-rook 指标
- Pod 无法在代理环境中与 FQDN 通信
- 使用 Automation Suite 诊断工具
- 使用 Automation Suite 支持捆绑包
- 探索日志
AI Center 注意事项
重要 :
请注意,此内容已使用机器翻译进行了部分本地化。
新发布内容的本地化可能需要 1-2 周的时间才能完成。

Automation Suite 安装指南
上次更新日期 2025年4月2日
AI Center 注意事项
除了作为完整平台要求一部分的核心服务要求之外,AI Center 还需要其他资源,具体取决于您要运行或训练的模型。有关所需 GPU 硬件版本和兼容的 NVIDIA 驱动程序的更多详细信息,请参阅兼容性矩阵。
注意:下表描述了 AI Center 所需的其他资源。
在此表格中,所有服务器节点都需要数据磁盘。代理节点不需要此操作。
使用 |
CPU |
RAM (GiB) |
GPU |
磁盘 (GiB) |
---|---|---|---|---|
用于服务的最小值(ML 技能,一个副本) |
0.6 |
2 |
0 |
|
用于训练的最小值(管道) |
1 |
4 |
0 |
|
DU 模型服务(ML 技能,一个副本) |
1 |
4 |
0 |
|
DU 模型训练 |
2 |
24 |
强烈推荐 |
|
注意:下表描述了小型和平均 AI Center 实现所需的资源。请注意,这些数字是一般指导原则。
在此表格中,所有服务器节点都需要数据磁盘。代理节点不需要此操作。
使用 |
CPU |
RAM (GiB) |
GPU |
磁盘 (GiB) |
---|---|---|---|---|
小型实现:
|
4 |
32 |
0 |
|
平均实现:
|
8 |
52 |
强烈推荐 |
|
1 个(3 个技能 + 1 个管道)*
rancher
分区上的 20 GiB = rancher
分区上的 80 GiB
2 1 个管道 * 105 GiB = 105 数据磁盘
3(5 个技能 + 2 个管道 + 1 个 DU 管道)*
rancher
分区上的 20 GiB = rancher
分区上的 160 GiB
4(2 个管道 + 1 个 DU 管道)* 105 GiB = 315 数据磁盘