AI Center

适用平台：

上次更新日期 2025年3月4日

TPOT XGBoost Classification

“操作系统包”>“表格数据”>“TPOTXGBoost 分类”

此模型是通用的表格数据（仅限数值）分类模型，需要先进行重新训练才能用于预测。它依赖 TPOT 自动找到最佳模型。

TPOT 是一个 Python 自动化机器学习工具，可使用遗传编程来优化机器学习管道。TPOT 通过智能地探索成千上万个可能的管道来找到最适合您的数据的管道，从而自动化机器学习中最繁琐的部分。一旦 TPOT 完成搜索（或您厌倦了等待），它会为您提供找到的最佳管道的 Python 代码，以便您从中修改管道。TPOT 基于 scikit-learn 构建，因此它生成的所有代码对于 scikit-learn 用户来说应该都很熟悉。

此版本的 TPOT 仅使用 XGBoost 和一组标准的预处理方法来优化机器学习管道。

输入类型

JSON

输入说明

模型用于进行预测的特征。例如：{ “Feature1”: 12, “Feature2”: 222, ..., “FeatureN”: 110}

输出说明

包含预测类、有关该类预测的关联置信度（0 到 1）以及标签名称的 JSON。仅当管道在 AI Fabric 中执行了标签编码时，才会返回标签名称。部分 scikit-learn 模型不支持置信度分数。如果优化管道的输出是不支持置信度分数的 scikit-learn 模型，则输出将仅包含预测类。

示例：

{
  "predictions": 0,
  "confidences": 0.6,
  "labels": "yes"
}{
  "predictions": 0,
  "confidences": 0.6,
  "labels": "yes"
}

或者，如果标签编码是在模型外部完成的：

{
  "predictions": 0,
  "confidences": 0.6
}{
  "predictions": 0,
  "confidences": 0.6
}

管道

此包支持所有三种类型的管道（完整训练、训练和评估）。

首次训练模型时，将通过查看所提供的整个数据集来推断类。

数据集格式

此 ML 包将在数据集（而不是子目录）中查找 csv 文件

csv 文件需要遵循以下两个规则：

数据的第一行必须包含标头/列名称。
除 target_column 以外的所有列都必须为数值（int、float）。模型无法执行特征编码，但能够执行目标编码。如果模型执行目标编码，则在预测时，模型还会返回目标变量的标签。

环境变量

max_time_mins：运行管道的持续时间（以分钟为单位）。训练时间越长，TPOT 找到合适模型的机会就越大。（默认值：2）
target_column：目标列的名称（默认值：“target”）
scoring：TPOT 使用 sklearn.model_selection.cross_val_score 来评估管道，从而为评分函数提供相同的支持（默认值：“accuracy”）。使用标准 scikit-learn 评分指标 (https://scikit-learn.org/stable/modules/model_evaluation.html)
keep_training：完成 TPOT 运行通常需要几个小时到几天（除非它是一个小型数据集），但您随时可以中断运行，并查看迄今为止的最佳结果。如果将 keep_training 设置为 True，则 TPOT 将从离开的位置继续训练