- 发行说明
- 在开始之前
- 入门指南
- 安装 AI Center
- 迁移和升级
- 项目
- 数据集
- 数据标签
- ML 包
- 开箱即用包
- 管道
- ML 技能
- ML 日志
- AI Center 中的 Document Understanding™
- AI Center API
- 如何
- 许可
- 基本故障排除指南
管理管道
系统将创建管道,并将该管道及其详细信息显示在“管道”页面和所选包的“ML 包详细信息”页面的“管道运行”选项卡中。管道将根据您在创建管道时选择的时间范围运行。
存在资源有限的集群,尤其是考虑到已部署 GPU 的数量。
队列机制管理 GPU 使用请求,监控 GPU 状态,并在 GPU 可用时执行请求。 资源管理提高了跟踪和重新启动请求的效率。
- 转到 ArgoCD AICenter应用程序。
- 单击“应用程序详细信息”按钮以查看应用程序详细信息。
- 单击“参数” 选项卡以查看参数及其详细信息。
global.waitQueue.gpuCount
设置为可用于模型训练的 GPU 资源数量。global.waitQueue.queueLength
设置为最大队列长度。 超出此限制后,新请求将不会排队。 建议的队列长度为 5*numGPUs。
启用功能
global.waitQueue.enabled
属性设置为 True。
配置
global.waitQueue.gpuCount
或global.waitQueue.queueLength
。
功能
您只能编辑尚未运行的管道。
- 转到“管道详细信息”页面。
- 在“管道”页面中,单击计划的管道旁边的 ⁝,然后选择“详细信息”。
- 在特定包的“ML 包详细信息”中,选择“管道运行”选项卡,单击计划的管道旁边的 ⁝,然后选择“详细信息”。系统将显示“管道详细信息”页面。
- 单击“编辑管道”。系统将显示“编辑管道运行”页面。
- 您可以更改管道的名称、计划的管道的数据目录以及周期性计划。
- 单击“提交”以保存您的更改。计划的管道将显示在“管道”页面中,并包含其更新信息。
您可以查看有关特定管道的更多信息,或执行其他操作。
-
在“管道”页面中,单击计划的管道旁边的 ⁝,然后选择“详细信息”。
- 在特定包的“ML 包详细信息”中,选择“管道运行”选项卡,单击计划的管道旁边的 ⁝,然后选择“详细信息”。系统将显示“管道详细信息”页面。
- 或者,如果 ML 包由管道生成,则可以通过依次单击三点菜单 ⁝ 和“管道详细信息”,直接从“ML 包”窗口访问与管道相关的所有信息。这仅适用于新管道。
此处显示的信息以及您可以在此处执行的操作取决于管道状态。
计划的管道的“管道详细信息”页面显示“信息”选项卡。
您可以执行以下操作:
删除管道。
编辑管道。在显示的“编辑管道运行”页面中,可以更新任何字段。选择“立即运行”不会创建新的管道,而是会立即执行该管道,从而将其从计划的管道列表中删除。
状态为“正在打包”的管道的“管道详细信息”页面显示“信息”选项卡。
您可以执行以下操作:
终止管道。这将停止执行管道,以使其既不运行,也不占用 AI Unit。其状态将更改为“已终止”。
状态为“正在等待资源”的管道的“管道详细信息”页面显示“信息”选项卡。
您可以执行以下操作:
终止管道。这将从队列中删除管道,以使其既不执行,也不占用 AI Unit。其状态将更改为“已终止”。
状态为“正在运行”的管道的“管道详细信息”页面显示“信息”选项卡和实时日志。
您可以执行以下操作:
终止管道。这将立即停止管道,并将其状态更改为“已终止”。日志显示执行终止操作时的快照。
状态为“失败”的管道的“管道详细信息”页面显示“信息”选项卡和日志。根据该管道失败的阶段,系统将显示(部分)管道输出。
您可以执行以下操作:
重新启动管道。这会将一个新管道添加到队列中,并使用与创建时完全相同的参数。如果队列为空,则管道会立即开始执行。
状态为“已终止”的管道的“管道详细信息”页面显示“信息”选项卡。此外,根据该管道的终止时间,“管道详细信息”页面可能还包含日志。
您可以执行以下操作:
重新启动管道。
删除管道。