- Versionshinweise
- Bevor Sie beginnen
- Erste Schritte
- Installieren von AI Center
- Migration und Upgrade
- Projekte
- Datasets
- Data Labeling
- ML-Pakete
- Sofort einsetzbare Pakete
- Pipelines
- ML-Skills
- ML-Protokolle
- Document UnderstandingTM im AI Center
- AI Center-API
- Anleitungen zu …
- Lizenzierung
- Grundlegende Anleitung zur Fehlerbehebung
Trainingspipelines
train()
-Funktion in der train.py-Datei) enthalten und Code zum Beibehalten eines neu trainierten Modells (die save()
-Funktion in der train.py-Datei) enthalten. Diese erzeugen zusammen mit einem Dataset oder Unterordner innerhalb eines Datasets eine neue Paketversion.
Erstellen Sie eine neue Trainingspipeline, wie hier beschrieben. Stellen Sie sicher, dass Sie die folgenden Informationen für Trainingspipelines zur Verfügung stellen:
- Wählen Sie im Feld Pipelinetyp die Option Trainingsausführung aus.
- Wählen Sie im Feld Eingabe-Dataset auswählen ein Dataset oder einen Ordner aus, aus dem Sie Daten für das Training importieren möchten. Alle Dateien in diesem Dataset/Ordner sollten während der Laufzeit der Pipeline lokal verfügbar sein und an das erste Argument an Ihre
train()
-Funktion übergeben werden (d. h., der Pfad zu den bereitgestellten Daten wird an die data_directory-Variable in der Definition train(self, data_directory) übergeben). - Geben Sie im Abschnitt Parameter eingeben von Ihrer Pipeline definierte und verwendete Umgebungsvariablen ein, falls vorhanden. Die standardmäßig festgelegten Umgebungsvariablen sind:
artifacts_directory
mit Standardwert Artefakte: Dies definiert den Pfad zu einem Verzeichnis, das als Hilfsdatensatz im Zusammenhang mit dieser Pipeline beibehalten wird. Die meisten, wenn nicht sogar alle Benutzer werden dies niemals über die Benutzeroberfläche überschreiben müssen. Während der Pipelineausführung kann alles gespeichert werden, einschließlich Bilder, PDF-Dateien und Unterordner. Alle Daten, die Ihr Code in das Verzeichnis schreibt, welches durch den Pfados.environ['artifacts_directory']
spezifiziert ist, werden am Ende der Pipelineausführung hochgeladen und können auf der Seite Pipelinedetails angezeigt werden.save_training_data
mit dem Standardwert false: Bei true wird derChoose input dataset
-Ordner am Ende der Pipelineausführung als Ausgabe der Pipeline unter dem Verzeichnisdata_directory
hochgeladen.Hinweis: Die Pipelineausführung kann einige Zeit in Anspruch nehmen. Sehen Sie nach einer kurzen Zeit nach, ob sich der Status geändert hat.Nachdem die Pipeline ausgeführt wurde, ist eine neue Nebenversion des Pakets verfügbar und wird auf der Seite ML-Pakete > [Paketname] angezeigt. In unserem Beispiel ist dies Paketversion 1.1.
Auf der Seite Pipelines wurde der Status der Pipeline in Erfolgreich geändert. Auf der Seite Pipelinedetails werden die beliebigen Dateien und Ordner im Zusammenhang mit der Pipelineausführung angezeigt. In unserem Beispiel hat die Ausführung eine Datei mit dem Namenmy-training-artifact.txt
erzeugt.
_results.json
enthält eine Zusammenfassung der Pipelineausführung, die alle Eingaben/Ausgaben und Ausführungszeiten für eine Trainingspipeline offenlegt.
{
"parameters": {
"pipeline": "< Pipeline_name >",
"inputs": {
"package": "<Package_name>",
"version": "<version_number>",
"train_data": "<storage_directory>",
"gpu": "True/False"
},
"env": {
"key": "value",
...
}
},
"run_summary": {
"execution_time": <time>, #in seconds
"start_at": <timestamp>, #in seconds
"end_at": <timestamp>, #in seconds
"outputs": {
"train_data": "<test_storage_directory>",
"artifacts_data": "<artifacts_storage_directory>",
"package": "<Package_name>",
"version": "<new_version>"
}
}
}
{
"parameters": {
"pipeline": "< Pipeline_name >",
"inputs": {
"package": "<Package_name>",
"version": "<version_number>",
"train_data": "<storage_directory>",
"gpu": "True/False"
},
"env": {
"key": "value",
...
}
},
"run_summary": {
"execution_time": <time>, #in seconds
"start_at": <timestamp>, #in seconds
"end_at": <timestamp>, #in seconds
"outputs": {
"train_data": "<test_storage_directory>",
"artifacts_data": "<artifacts_storage_directory>",
"package": "<Package_name>",
"version": "<new_version>"
}
}
}
Die ZIP-Datei des ML-Pakets ist die neue Paketversion, die automatisch von der Trainingspipeline generiert wird.
artifacts_directory
gespeicherten Artefakte neu.
save_data
auf den Standardwert true festgelegt wurde; ist eine Kopie des Eingabe-Dataset-Ordners.
Die Governance beim Machine Learning ist eine Sache, die nur sehr wenige Unternehmen bewältigen können. Das AI Center ermöglicht jedem Modell die Erstellung einer Momentaufnahme der Daten, auf denen es trainiert wurde – So haben Unternehmen die Option der Rückverfolgbarkeit der Daten.
save_training_data
mit dem Wert true
übergeben. Dadurch wird eine Momentaufnahme der Daten erstellt, die als Eingabe übergeben wurden. Danach kann ein Benutzer jederzeit zur entsprechenden Seite Pipelinedetails navigieren, um genau zu sehen, welche Daten zur Trainingszeit verwendet wurden.