ai-center
2022.4
true
- 入门指南
- 网络要求
- 单节点要求和安装
- 多节点要求和安装
- 安装后
- 配置 GPU
- 使用配置文件
- 节点调度
- 迁移和升级
- 基本故障排除指南
- AI Center 常规故障排除和常见问题解答
AI Center 安装指南
Last updated 2024年6月6日
AI Center 常规故障排除和常见问题解答
上传数据集文件时,可能会发生以下错误:
Failed to upload item(s), it may be due to a slow or lost internet connection
在极少数情况下,如果连续两次重新启动计算机,则服务部署可能会因一个服务未释放 DATABASECHANGELOGLOCK 锁而卡住。在这种情况下,您将看到 AI Center Pod 持续重新启动。
导入/导出脚本失败,并显示以下错误消息:
cookfile_new.txt: Permission denied
运行导入或导出脚本时,可能会出现以下错误消息:
./export.sh: line 2: $'\r': command not found
使用脚本导入或导出 ML 包时,会显示此错误消息。
使用公共数据集运行 UiPath Studio 自动化并上传验证数据以进行训练时,可能会发生此问题。
AI Center 版本 2021.10.1 和 2021.10.2 中缺少
update-mlskills-cm
cronjob。
为避免因此问题而导致 ML 技能部署和预测失败,请使用下面的
YAML
文件手动创建 cronjob。
apiVersion: batch/v1beta1
kind: CronJob
metadata:
name: update-mlskill-cm
namespace: uipath
spec:
concurrencyPolicy: Forbid
failedJobsHistoryLimit: 1
jobTemplate:
spec:
template:
metadata:
annotations:
sidecar.istio.io/inject: "false"
spec:
containers:
- args:
- -XPOST
- ai-deployer-svc.uipath.svc.cluster.local/ai-deployer/v1/system/mlskills:update-cm
image: registry.uipath.com/aicenter/alpine-curl:7.78.0
imagePullPolicy: IfNotPresent
name: update-mlskill-cm
securityContext:
allowPrivilegeEscalation: false
capabilities:
drop:
- NET_RAW
privileged: false
readOnlyRootFilesystem: true
runAsNonRoot: true
dnsPolicy: ClusterFirst
imagePullSecrets:
- name: regcred
restartPolicy: OnFailure
schedulerName: default-scheduler
securityContext: {}
terminationGracePeriodSeconds: 30
ttlSecondsAfterFinished: 120
schedule: 0 */2 * * *
startingDeadlineSeconds: 200
successfulJobsHistoryLimit: 1
suspend: false
apiVersion: batch/v1beta1
kind: CronJob
metadata:
name: update-mlskill-cm
namespace: uipath
spec:
concurrencyPolicy: Forbid
failedJobsHistoryLimit: 1
jobTemplate:
spec:
template:
metadata:
annotations:
sidecar.istio.io/inject: "false"
spec:
containers:
- args:
- -XPOST
- ai-deployer-svc.uipath.svc.cluster.local/ai-deployer/v1/system/mlskills:update-cm
image: registry.uipath.com/aicenter/alpine-curl:7.78.0
imagePullPolicy: IfNotPresent
name: update-mlskill-cm
securityContext:
allowPrivilegeEscalation: false
capabilities:
drop:
- NET_RAW
privileged: false
readOnlyRootFilesystem: true
runAsNonRoot: true
dnsPolicy: ClusterFirst
imagePullSecrets:
- name: regcred
restartPolicy: OnFailure
schedulerName: default-scheduler
securityContext: {}
terminationGracePeriodSeconds: 30
ttlSecondsAfterFinished: 120
schedule: 0 */2 * * *
startingDeadlineSeconds: 200
successfulJobsHistoryLimit: 1
suspend: false