- Notes de publication
- Démarrage
- Notifications
- Projets
- Jeux de données
- Labellisation des données
- Paquets ML
- Paquets prêts à l’emploi
- Pipelines
- Compétences ML
- Journaux ML
- Document UnderstandingTM dans AI Center
- API AI Center
- Licences
- Modèles de solutions d'IA
- Comment
- Guide de dépannage de base

AI Center
Régression TPOT XGBoost
Packages du système d'exploitation (OS Packages) > Données tabulaires (Tabular Data) > TPOTXGBoostRegression
Ce modèle est un modèle de régression de données tabulaires génériques (valeur numérique uniquement) qui doit être réentraîné avant d'être utilisé pour des prédictions. Il s'appuie sur TPOT pour trouver automatiquement le meilleur modèle.
TPOT est un outil d'apprentissage automatique Python qui optimise les pipelines d'apprentissage automatique à l'aide de la programmation génétique. TPOT automatise la partie la plus fastidieuse de l'apprentissage automatique en explorant intelligemment des milliers de pipelines possibles pour trouver celui qui convient le mieux à vos données. Une fois que TPOT a terminé la recherche (ou que vous en avez assez d'attendre), il vous fournit le code Python du meilleur pipeline qu'il a trouvé afin que vous puissiez commencer à ajuster le pipeline. TPOT est construit sur scikit-learn, donc tout le code qu'il génère devrait sembler familier aux utilisateurs de scikit-learn.
Cette version de TPOT utilise uniquement XGBoost et l'ensemble standard de méthodes de prétraitement pour optimiser un pipeline d'apprentissage automatique.
Détails du modèle
Fonctionnalités utilisées par le modèle pour faire des prédictions. Par exemple : { « Feature1 » : 12, « Feature2 » : 222, ..., « FeatureN » : 110}
JSON avec liste de prédictions
Exemple :
{ "predictions" : "[12, 12, 2, 354, 12, 2] }
{ "predictions" : "[12, 12, 2, 354, 12, 2] }
Pipelines
Les trois types de pipelines (complet, entraînement et évaluation) sont pris en charge par ce package.
Ce paquet ML recherchera les fichiers csv dans votre ensemble de données (pas dans les sous-répertoires)
Les fichiers csv doivent suivre ces deux règles :
- la première ligne des données doit contenir les noms d'en-tête et des colonnes.
- toutes les colonnes doivent être numériques (int, float). Le modèle n'est pas en mesure d'effectuer un encodage de fonctionnalités, mais il est capable d'effectuer un encodage de cible. Si l'encodage de cible est effectué par le modèle à l'heure de prévision, le modèle renvoie également le libellé de la variable cible.
- train_time : temps d'exécution du pipeline (en minutes). Plus le temps d'apprentissage est long, meilleures sont les chances que TPOT trouve un bon modèle. (par défaut : 2)
- target_column : nom de la colonne cible (par défaut : "target")
- scoring: TPOT makes use of sklearn.model_selection.cross_val_score for evaluating pipelines, and as such offers the same support for scoring functions (default: “accuracy”). Uses standard scikit-learn scoring metrics
- keep_training : les exécutions TPOT typiques prendront des heures, voire des jours, pour se terminer (sauf s'il s'agit d'un petit ensemble de données), mais vous pouvez toujours interrompre l'exécution à mi-chemin et consulter les meilleurs résultats trouvés jusqu'ici. Si keep_training est défini sur True, TPOT continuera l'entraînement là où il l'avait laissé
target
), you need to update the target_column environment variable manually. You can do this in the Create new pipeline run window by selecting the + Add new button in the Enter parameters section. In the Environment variable field add the variable (target_column) and in the Value field add the name of the column from your file.
TPOT exporte le code Python correspondant pour le pipeline optimisé vers un fichier python appelé « TPOT_pipeline.py ». Une fois l'exécution du code terminée, « TPOT_pipeline.py » contiendra le code Python pour le pipeline optimisé.
Papier
Le modèle est basé sur deux publications :
- « Mise à l’échelle de l’apprentissage automatique automatisé basé sur l’arborescence vers le Big Data biomédical avec un sélecteur d’ensemble de fonctionnalités. » de Trang T. Le, Weixuan Fu et Jason H. Moore (2020)
- "Evaluation of a Tree-based Pipeline Optimization Tool for Automating Data Science." de Randal S. Olson, Nathan Bartley, Ryan J. Urbanowicz et Jason H. Moore