ai-center
latest
false
- 发行说明
- 入门指南
- 通知
- 项目
- 数据集
- 数据标签
- ML 包
- 开箱即用包
- 管道
- ML 技能
- ML 日志
- AI Center 中的 Document Understanding™
- AI Center API
- 许可
- AI 解决方案模板
- 如何
- 基本故障排除指南
TPOT XGBoost 回归
重要 :
请注意此内容已使用机器翻译进行了部分本地化。
AI Center
Last updated 2024年11月19日
TPOT XGBoost 回归
OS 包 > 表格数据 > TPOT XGBoost 回归
此模型是通用的表格数据(仅限数值)回归模型,需要先进行重新训练才能用于预测。它依赖 TPOT 自动找到最佳模型。
TPOT 是一个 Python 自动化机器学习工具,可使用遗传编程来优化机器学习管道。TPOT 通过智能地探索成千上万个可能的管道来找到最适合您的数据的管道,从而自动化机器学习中最繁琐的部分。一旦 TPOT 完成搜索(或您厌倦了等待),它会为您提供找到的最佳管道的 Python 代码,以便您从中修改管道。TPOT 基于 scikit-learn 构建,因此它生成的所有代码对于 scikit-learn 用户来说应该都很熟悉。
此版本的 TPOT 仅使用 XGBoost 和一组标准的预处理方法来优化机器学习管道。
模型详细信息
包含预测列表的 JSON
示例:
{ "predictions" : "[12, 12, 2, 354, 12, 2] }
{ "predictions" : "[12, 12, 2, 354, 12, 2] }
管道
此包支持所有三种类型的管道(完整训练、训练和评估)。
此 ML 包将在数据集(而不是子目录)中查找 csv 文件
csv 文件需要遵循以下两个规则:
- 数据的第一行必须包含标头/列名称。
- 所有列,必须为数值型(int、float)。模型无法执行特征编码,但能够执行目标编码。如果模型执行目标编码,则在预测时,模型还会返回目标变量的标签。
- max_time_mins:运行管道的持续时间(以分钟为单位)。训练时间越长,TPOT 找到合适模型的机会就越大。(默认值:2)
- target_column:目标列的名称(默认值:“target”)
- scoring:TPOT 使用 sklearn.model_selection.cross_val_score 来评估管道,从而为评分函数提供相同的支持(默认值:“accuracy”)。使用标准 scikit-learn 评分指标 (https://scikit-learn.org/stable/modules/model_evaluation.html)
- keep_training:完成 TPOT 运行通常需要几个小时到几天(除非它是一个小型数据集),但您随时可以中断运行,并查看迄今为止的最佳结果。如果将 keep_training 设置为 True,则 TPOT 将从离开的位置继续训练
注意: 如果文件的目标列与默认值 (
target
) 不同,则需要手动更新 target_column 环境变量。 您可以在“ 新建管道运行 ”窗口中执行此操作,方法是单击“ 输入参数 ”部分中的“ + 添加新”按钮。 在“ 环境变量 ” 字段中添加变量 (target_column),并在“ 值 ” 字段中添加文件中列的名称。 完成后,单击该符号。
TPOT 将优化管道的相应 Python 代码导出至名为 TPOT_pipeline.py 的 python 文件。代码运行完成后,TPOT_pipeline.py 文件将包含优化管道的 Python 代码。
Paper
该模型基于以下两篇论文: