ai-center
2020.10
false
- 发行说明
- 要求
- 安装
- 入门指南
- 项目
- 数据集
- ML 包
- 关于 ML 包
- 构建 ML 包
- 英语文本分类
- 法语文本分类
- TPOT AutoML Classification
- TPOT XGBoost Classification
- UiPath Document Understanding
- 示例
- 管道
- ML 技能
- ML 日志
- AI Fabric 中的 Document Understanding
- 基本故障排除指南
AI Center
Last updated 2024年6月6日
TPOT XGBoost Classification
“操作系统包”>“表格数据”>“TPOTXGBoost 分类”
此模型是通用的表格数据(仅限数值)分类模型,需要先进行重新训练才能用于预测。它依赖 TPOT 自动找到最佳模型。
TPOT 是一个 Python 自动化机器学习工具,可使用遗传编程来优化机器学习管道。TPOT 通过智能地探索成千上万个可能的管道来找到最适合您的数据的管道,从而自动化机器学习中最繁琐的部分。一旦 TPOT 完成搜索(或您厌倦了等待),它会为您提供找到的最佳管道的 Python 代码,以便您从中修改管道。TPOT 基于 scikit-learn 构建,因此它生成的所有代码对于 scikit-learn 用户来说应该都很熟悉。
此版本的 TPOT 仅使用 XGBoost 和一组标准的预处理方法来优化机器学习管道。
包含预测类、有关该类预测的关联置信度(0 到 1)以及标签名称的 JSON。仅当管道在 AI Fabric 中执行了标签编码时,才会返回标签名称。部分 scikit-learn 模型不支持置信度分数。如果优化管道的输出是不支持置信度分数的 scikit-learn 模型,则输出将仅包含预测类。
示例:
{
"predictions": 0,
"confidences": 0.6,
"labels": "yes"
}
{
"predictions": 0,
"confidences": 0.6,
"labels": "yes"
}
或者,如果标签编码是在模型外部完成的:
{
"predictions": 0,
"confidences": 0.6
}
{
"predictions": 0,
"confidences": 0.6
}
此 ML 包将在数据集(而不是子目录)中查找 csv 文件
csv 文件需要遵循以下两个规则:
- 数据的第一行必须包含标头/列名称。
- 除 target_column 以外的所有列都必须为数值(int、float)。模型无法执行特征编码,但能够执行目标编码。如果模型执行目标编码,则在预测时,模型还会返回目标变量的标签。
- max_time_mins:运行管道的持续时间(以分钟为单位)。训练时间越长,TPOT 找到合适模型的机会就越大。(默认值:2)
- target_column:目标列的名称(默认值:“target”)
- scoring:TPOT 使用 sklearn.model_selection.cross_val_score 来评估管道,从而为评分函数提供相同的支持(默认值:“accuracy”)。使用标准 scikit-learn 评分指标 (https://scikit-learn.org/stable/modules/model_evaluation.html)
- keep_training:完成 TPOT 运行通常需要几个小时到几天(除非它是一个小型数据集),但您随时可以中断运行,并查看迄今为止的最佳结果。如果将 keep_training 设置为 True,则 TPOT 将从离开的位置继续训练
TPOT 将优化管道的相应 Python 代码导出至名为 TPOT_pipeline.py 的 python 文件。代码运行完成后,TPOT_pipeline.py 文件将包含优化管道的 Python 代码。
Paper
该模型基于以下两篇论文: