- Versionshinweise
- Anforderungen
- Installation
- Erste Schritte
- Projekte
- Datasets
- ML-Pakete
- Pipelines
- ML-Skills
- ML-Protokolle
- Document Understanding in AI Fabric
- Grundlegende Anleitung zur Fehlerbehebung
TPOT XGBoost-Klassifizierung
OS-Pakete > Tabellendaten > TPOTXGBoostClassification
Bei diesem Modell handelt es sich um ein generisches Klassifizierungsmodell für Tabellendaten (nur numerische Werte), das trainiert werden muss, bevor es für Vorhersagen verwendet wird. Es basiert auf TPOT, um automatisch das beste Modell zu finden.
TPOT ist ein automatisiertes Machine Learning-Tool für Python, das Machine Learning-Pipelines mithilfe von genetischer Programmierung optimiert. TPOT automatisiert den mühseligsten Teil des Machine Learning, indem Tausende möglicher Pipelines intelligent erkundet werden, um die beste für Ihre Daten zu finden. Sobald TPOT mit der Suche fertig ist (oder Sie keine Lust mehr haben zu warten), erhalten Sie den Python-Code für die beste Pipeline, die es gefunden hat, damit Sie von dort aus an der Pipeline basteln können. TPOT basiert auf Scikit-learn, daher sollte der gesamte Code, der generiert wird, für Benutzer von Scikit-learn vertraut wirken.
Diese Version von TPOT verwendet nur XGBoost und den Standardsatz von Vorverarbeitungsmethoden zur Optimierung einer Machine Learning-Pipeline.
Features, die vom Modell verwendet werden, um Vorhersagen zu treffen. Beispiel: { „Funktion1“: 12, „Funktion2“: 222, ..., „FunktionN“: 110}
JSON mit der vorhergesagten Klasse und der zugehörigen Konfidenz zu dieser Klassenvorhersage (zwischen 0 und 1) sowie dem Bezeichnungsnamen. Bezeichnungsnamen werden nur zurückgegeben, wenn die Bezeichnungscodierung von der Pipeline innerhalb von AI Fabric durchgeführt wurde. Einige Scikit-learn-Modelle unterstützen keine Konfidenzbewertungen. Wenn es sich bei der Ausgabe der Optimierungspipeline um ein Scikit-learn-Modell handelt, das keine Konfidenzbewertungen unterstützt, enthält die Ausgabe nur die vorhergesagte Klasse.
Beispiel:
{
"predictions": 0,
"confidences": 0.6,
"labels": "yes"
}
{
"predictions": 0,
"confidences": 0.6,
"labels": "yes"
}
Oder wenn die Bezeichnungscodierung außerhalb des Modells erfolgt ist:
{
"predictions": 0,
"confidences": 0.6
}
{
"predictions": 0,
"confidences": 0.6
}
Dieses ML-Paket sucht nach CSV-Dateien in Ihrem Dataset (nicht in Unterverzeichnissen)
Die CSV-Dateien müssen den zwei folgenden Regeln folgen:
- Die erste Zeile der Daten muss die Header-/Spaltennamen enthalten.
- Alle Spalten, mit Ausnahme der target_column, müssen numerisch sein (int, float). Das Modell kann keine Funktionscodierung durchführen, aber es kann eine Zielcodierung vornehmen. Wenn die Zielcodierung vom Modell durchgeführt wird, gibt das Modell zur Vorhersagezeit auch die Bezeichnung der Zielvariablen zurück.
- max_time_mins: Zeit zum Ausführen der Pipeline (in Minuten). Je länger die Trainingszeit ist, desto besser stehen die Chancen für TPOT, ein gutes Modell zu finden. (Standardwert: 2)
- target_column: Name der Zielspalte (Standardwert: „target“)
- scoring: TPOT nutzt sklearn.model_selection.cross_val_score für die Bewertung von Pipelines und bietet daher die gleiche Unterstützung für Auswertungsfunktionen (Standardwert: „accuracy“). Es werden standardmäßige Scikit-learn-Bewertungsmetriken verwendet (https://scikit-learn.org/stable/modules/model_evaluation.html)
- keep_training: Typische TPOT-Ausführungen dauern stunden- bis tagelang (es sei denn, es ist ein kleines Dataset), aber Sie können die Ausführung zwischendurch unterbrechen und die bisher besten Ergebnisse einsehen. Wenn keep_training auf „true“ gesetzt ist, setzt TPOT das Training an dem Punkt fort, wo es aufgehört hat
TPOT exportiert den entsprechenden Python-Code für die optimierte Pipeline in eine Python-Datei namens „TPOT_pipeline.py“. Sobald der Code die Ausführung beendet hat, enthält „TPOT_pipeline.py“ den Python-Code für die optimierte Pipeline.
Papier
Das Modell basiert auf zwei Veröffentlichungen:
- „Scaling tree-based automated machine learning to biomedical big data with a feature set selector.“ von Trang T. Le, Weixuan Fu and Jason H. Moore (2020)
- „Evaluation of a Tree-based Pipeline Optimization Tool for Automating Data Science.“ von Randal S. Olson, Nathan Bartley, Ryan J. Urbanowicz und Jason H. Moore