- Versionshinweise
- Bevor Sie beginnen
- Erste Schritte
- Installieren der Automation Suite
- Migration und Upgrade
- Projekte
- Datasets
- ML-Pakete
- Pipelines
- ML-Skills
- ML-Protokolle
- Document Understanding im AI Center
- Lizenzierung
- Anleitungen zu …
- Grundlegende Anleitung zur Fehlerbehebung
Trainingspipelines
train()
-Funktion in der train.py-Datei) enthalten und Code zum Beibehalten eines neu trainierten Modells (die save()
-Funktion in der train.py-Datei) enthalten. Diese erzeugen zusammen mit einem Dataset oder Unterordner innerhalb eines Datasets eine neue Paketversion.
Erstellen Sie eine neue Trainingspipeline, wie hier beschrieben. Stellen Sie sicher, dass Sie die folgenden Informationen für Trainingspipelines zur Verfügung stellen:
- Wählen Sie im Feld Pipelinetyp die Option Trainingsausführung aus.
- Wählen Sie im Feld Eingabe-Dataset auswählen ein Dataset oder einen Ordner aus, aus dem Sie Daten für das Training importieren möchten. Alle Dateien in diesem Dataset/Ordner sollten während der Laufzeit der Pipeline lokal verfügbar sein und an das erste Argument an Ihre
train()
-Funktion übergeben werden (d. h., der Pfad zu den bereitgestellten Daten wird an die data_directory-Variable in der Definition train(self, data_directory) übergeben). - Geben Sie im Abschnitt Parameter eingeben von Ihrer Pipeline definierte und verwendete Umgebungsvariablen ein, falls vorhanden. Die standardmäßig festgelegten Umgebungsvariablen sind:
artifacts_directory
mit Standardwert Artefakte: Dies definiert den Pfad zu einem Verzeichnis, das als Hilfsdatensatz im Zusammenhang mit dieser Pipeline beibehalten wird. Die meisten, wenn nicht sogar alle Benutzer werden dies niemals über die Benutzeroberfläche überschreiben müssen. Während der Pipelineausführung kann alles gespeichert werden, einschließlich Bilder, PDF-Dateien und Unterordner. Alle Daten, die Ihr Code in das Verzeichnis schreibt, welches durch den Pfados.environ['artifacts_directory']
spezifiziert ist, werden am Ende der Pipelineausführung hochgeladen und können auf der Seite Pipelinedetails angezeigt werden.save_training_data
mit dem Standardwert false: Bei true wird derChoose input dataset
-Ordner am Ende der Pipelineausführung als Ausgabe der Pipeline unter dem Verzeichnisdata_directory
hochgeladen.
Im folgenden Video erfahren Sie, wie Sie eine Trainingspipeline erstellen:
Nachdem die Pipeline ausgeführt wurde, ist eine neue Nebenversion des Pakets verfügbar und wird auf der Seite ML-Pakete > [Paketname] angezeigt. In unserem Beispiel ist dies Paketversion 1.1.
my-training-artifact.txt
erzeugt.
Hier ist eine konzeptionell analoge Ausführung einer Trainingspipeline für ein bestimmtes Paket, z. B. Version 1.0.
- Kopieren Sie die Paketversion 1.0 in
~/mlpackage
. - Kopieren Sie das Eingabe-Dataset oder den von der Benutzeroberfläche ausgewählten Dataset-Unterordner in
~/mlpackage/data
. - Führen Sie den folgenden Python-Code aus:
from train import Main m = Main() m.train(‘./data’) m.save()
from train import Main m = Main() m.train(‘./data’) m.save() - Behalten Sie den Inhalt von
~/mlpackage
als Paketversion 1.1 bei. Behalten Sie geschriebene Artefakte bei und machen Sie Momentaufnahmen der Daten, wennsave_data
auf true festgelegt ist.
_results.json
enthält eine Zusammenfassung der Pipelineausführung, die alle Eingaben/Ausgaben und Ausführungszeiten für eine Trainingspipeline offenlegt.
{
"parameters": {
"pipeline": "< Pipeline_name >",
"inputs": {
"package": "<Package_name>",
"version": "<version_number>",
"train_data": "<storage_directory>",
"gpu": "True/False"
},
"env": {
"key": "value",
...
}
},
"run_summary": {
"execution_time": <time>, #in seconds
"start_at": <timestamp>, #in seconds
"end_at": <timestamp>, #in seconds
"outputs": {
"train_data": "<test_storage_directory>",
"artifacts_data": "<artifacts_storage_directory>",
"package": "<Package_name>",
"version": "<new_version>"
}
}
}
{
"parameters": {
"pipeline": "< Pipeline_name >",
"inputs": {
"package": "<Package_name>",
"version": "<version_number>",
"train_data": "<storage_directory>",
"gpu": "True/False"
},
"env": {
"key": "value",
...
}
},
"run_summary": {
"execution_time": <time>, #in seconds
"start_at": <timestamp>, #in seconds
"end_at": <timestamp>, #in seconds
"outputs": {
"train_data": "<test_storage_directory>",
"artifacts_data": "<artifacts_storage_directory>",
"package": "<Package_name>",
"version": "<new_version>"
}
}
}
Die ZIP-Datei des ML-Pakets ist die neue Paketversion, die automatisch von der Trainingspipeline generiert wird.
artifacts_directory
gespeicherten Artefakte neu.
save_data
auf den Standardwert true festgelegt wurde; ist eine Kopie des Eingabe-Dataset-Ordners.
Die Governance beim Machine Learning ist eine Sache, die nur sehr wenige Unternehmen bewältigen können. Das AI Center ermöglicht jedem Modell die Erstellung einer Momentaufnahme der Daten, auf denen es trainiert wurde – So haben Unternehmen die Option der Rückverfolgbarkeit der Daten.
save_training_data
mit dem Wert true
übergeben. Dadurch wird eine Momentaufnahme der Daten erstellt, die als Eingabe übergeben wurden. Danach kann ein Benutzer jederzeit zur entsprechenden Seite Pipelinedetails navigieren, um genau zu sehen, welche Daten zur Trainingszeit verwendet wurden.