AI Center 用户指南

适用平台：

上次更新日期 2024年11月11日

TPOT AutoML Classification

OS 包 > 表格数据 > TPOT AutoML 分类

此模型是通用的表格数据（仅限数值）分类模型，需要先进行重新训练才能用于预测。它依赖 TPOT 自动找到最佳模型。

TPOT 是一个 Python 自动化机器学习工具，可使用遗传编程来优化机器学习管道。TPOT 通过智能地探索成千上万个可能的管道来找到最适合您的数据的管道，从而自动化机器学习中最繁琐的部分。一旦 TPOT 完成搜索（或您厌倦了等待），它会为您提供找到的最佳管道的 Python 代码，以便您从中修改管道。TPOT 基于 scikit-learn 构建，因此它生成的所有代码对于 scikit-learn 用户来说应该都很熟悉。

输入类型

JSON

输入说明

模型用于进行预测的特征。例如：{ “Feature1”: 12, “Feature2”: 222, ..., “FeatureN”: 110}

输出说明

包含预测类以及有关该类预测的关联置信度（0 到 1）的 JSON。仅当管道在 AI Center 中执行了标签编码时，才会返回标签名称。部分 scikit-learn 模型不支持置信度分数。如果优化管道的输出是不支持置信度分数的 scikit-learn 模型，则输出将仅包含预测类。

示例：

{
  "predictions": 0,
  "confidences": 0.6,
  "labels": "yes"
}{
  "predictions": 0,
  "confidences": 0.6,
  "labels": "yes"
}

或者，如果标签编码是在模型外部完成的：

{
  "predictions": 0,
  "confidences": 0.6
}{
  "predictions": 0,
  "confidences": 0.6
}

管道

此包支持所有三种类型的管道（完整训练、训练和评估）。

首次训练模型时，将通过查看所提供的整个数据集来推断类。

数据集格式

此 ML 包将在数据集（而不是子目录）中查找 csv 文件

csv 文件需要遵循以下两个规则：

数据的第一行必须包含标头/列名称。
除 target_column 以外的所有列都必须为数值（int、float）。模型无法执行特征编码，但能够执行目标编码。如果模型执行目标编码，则在预测时，模型还会返回目标变量的标签。

环境变量

max_time_mins：运行管道的持续时间（以分钟为单位）。训练时间越长，TPOT 找到合适模型的机会就越大。（默认值：2）
target_column：目标列的名称（默认值：“target”）
scoring：TPOT 使用 sklearn.model_selection.cross_val_score 来评估管道，从而为评分函数提供相同的支持（默认值：“accuracy”）。使用标准 scikit-learn 评分指标 (https://scikit-learn.org/stable/modules/model_evaluation.html)
keep_training：完成 TPOT 运行通常需要几个小时到几天（除非它是一个小型数据集），但您随时可以中断运行，并查看迄今为止的最佳结果。如果将 keep_training 设置为 True，则 TPOT 将从离开的位置继续训练。

注意：如果文件的目标列与默认值 ( target ) 不同，则需要手动更新 target_column 环境变量。您可以在“ 新建管道运行 ”窗口中执行此操作，方法是单击“ 输入参数 ”部分中的“ + 添加新”按钮。在“ 环境变量 ” 字段中添加变量 (target_column)，并在“ 值 ” 字段中添加文件中列的名称。完成后，单击该符号。