ai-center
2020.10
false
- 发行说明
- 要求
- 安装
- 入门指南
- 项目
- 数据集
- ML 包
- 管道
- ML 技能
- ML 日志
- AI Fabric 中的 Document Understanding
- 基本故障排除指南
- AI Center 常规故障排除和常见问题解答
AI Center
上次更新日期 2024年6月6日
AI Center 常规故障排除和常见问题解答
配置作业可能会卡在
Connection checking in progress
中。
要解决此问题,请按照以下步骤操作:
- 退出日志并检查连接检查程序 Pod
kubectl get pods
的状态。 - 如果您看到显示的“ 图像名称无效” ,请尝试描述 Pod:
kubectl describe <conn-checked-pod-name>
。 - 如果“事件”(底部)中显示“ 应用默认图像失败..” 消息,这可能意味着同时存在离线和非离线:
- 检查基础架构和应用程序是否安装在同一个 Pod 上。
- 检查许可证是否相同。 检查
yaml
文件中的离线字段,查看其是否为 true,以及是否符合预期。
- 如果问题出在许可证上,则需要从后端进行更改。 请联系许可证提供者或 AI Center 团队,请他们更改许可证。
如果出现主机管理页面错误(租户配置错误),请使用以下解决方案。
如果由于上述错误消息而导致大量 Pod 被逐出,则可能会降低计算机速度或导致网络问题。 要解决此问题,请使用以下解决方案。
要解决此问题,请运行以下脚本或类似脚本:
IFS=$'\)
'
for line in $(kubectl get pods -A | awk {'printf "%s,%s,%s\)
", $1,$2,$4'} | grep -E "Evicted"); do
ns=$(echo $line | cut -d',' -f1)
pod=$(echo $line | cut -d',' -f2)
kubectl delete pod -n $ns $pod
done
IFS=$'\)
'
for line in $(kubectl get pods -A | awk {'printf "%s,%s,%s\)
", $1,$2,$4'} | grep -E "Evicted"); do
ns=$(echo $line | cut -d',' -f1)
pod=$(echo $line | cut -d',' -f2)
kubectl delete pod -n $ns $pod
done
如果要在调用 Pod 时监控 Pod 的进度,则需要识别与技能对应的 Pod,然后连接到 Linux 计算机,以便在执行预测时检查日志。 有关执行此操作的最有效方法,请查看下面的“ 解决方案 ”部分。
由于文件上传失败,管道发生故障,并显示类似于以下内容的错误消息:
2021-04-30 20:59:43,397 - uipath_core.storage.local_storage_client:upload:132 - ERROR: Failed to upload file: logs/f5f7b9f4-0813-4107-a269-bf65de12444f/train.log.20210430205938 to bucket: training-8319b955-6187-43c3-a46f-612a9ea6f523, error: can't start new thread
2021-04-30 20:59:48,401 - uipath_core.utils.utils:_retries:172 - WARNING: Function: upload execution failed, retry count 1
2021-04-30 20:59:43,397 - uipath_core.storage.local_storage_client:upload:132 - ERROR: Failed to upload file: logs/f5f7b9f4-0813-4107-a269-bf65de12444f/train.log.20210430205938 to bucket: training-8319b955-6187-43c3-a46f-612a9ea6f523, error: can't start new thread
2021-04-30 20:59:48,401 - uipath_core.utils.utils:_retries:172 - WARNING: Function: upload execution failed, retry count 1
升级到更新的 AI Center 版本 (2021.4、 例如)修复了此问题的位置。
或
如果目前无法解决升级问题,请使用以下命令删除训练 Pod 中的日志:
kubectl -n <namespace> exec -it <pod_id> -- sh -c 'rm -rf /microservice/trainer_run_logs'
kubectl -n <namespace> exec -it <pod_id> -- sh -c 'rm -rf /microservice/trainer_run_logs'
在上述命令中,使用了以下变量:
namespace
- Pod 的命名空间。 这可以通过运行kubectl get namespaces
命令来获取。 训练命名空间以training-
开头。pod_id
- 训练 Pod 的 Pod ID。 这可以通过在上述训练空间中运行kubectl get pod
来实现。