ai-center
2024.10
true
UiPath logo, featuring letters U and I in white
AI Center – Benutzerhandbuch
Automation CloudAutomation SuiteStandalone
Last updated 11. Nov. 2024

Trainingspipelines

Eine Trainingspipeline wird verwendet, um ein neues Machine Learning-Modell zu trainieren. Um diese Pipeline zu verwenden, muss das Paket Code zum Trainieren eines Modells (die train()-Funktion in der train.py-Datei) enthalten und Code zum Beibehalten eines neu trainierten Modells (die save()-Funktion in der train.py-Datei) enthalten. Diese erzeugen zusammen mit einem Dataset oder Unterordner innerhalb eines Datasets eine neue Paketversion.

Erstellen von Trainingspipelines

Erstellen Sie eine neue Trainingspipeline, wie hier beschrieben. Stellen Sie sicher, dass Sie die folgenden Informationen für Trainingspipelines zur Verfügung stellen:

  • Wählen Sie im Feld Pipelinetyp die Option Trainingsausführung aus.
  • Wählen Sie im Feld Eingabe-Dataset auswählen ein Dataset oder einen Ordner aus, aus dem Sie Daten für das Training importieren möchten. Alle Dateien in diesem Dataset/Ordner sollten während der Laufzeit der Pipeline lokal verfügbar sein und an das erste Argument an Ihre train()-Funktion übergeben werden (d. h., der Pfad zu den bereitgestellten Daten wird an die data_directory-Variable in der Definition train(self, data_directory) übergeben).
  • Geben Sie im Abschnitt Parameter eingeben von Ihrer Pipeline definierte und verwendete Umgebungsvariablen ein, falls vorhanden. Die standardmäßig festgelegten Umgebungsvariablen sind:
    • artifacts_directory mit Standardwert Artefakte: Dies definiert den Pfad zu einem Verzeichnis, das als Hilfsdatensatz im Zusammenhang mit dieser Pipeline beibehalten wird. Die meisten, wenn nicht sogar alle Benutzer werden dies niemals über die Benutzeroberfläche überschreiben müssen. Während der Pipelineausführung kann alles gespeichert werden, einschließlich Bilder, PDF-Dateien und Unterordner. Alle Daten, die Ihr Code in das Verzeichnis schreibt, welches durch den Pfad os.environ['artifacts_directory'] spezifiziert ist, werden am Ende der Pipelineausführung hochgeladen und können auf der Seite Pipelinedetails angezeigt werden.
    • save_training_data mit dem Standardwert false: Bei true wird der Choose input dataset-Ordner am Ende der Pipelineausführung als Ausgabe der Pipeline unter dem Verzeichnis data_directory hochgeladen.
      Hinweis: Die Pipelineausführung kann einige Zeit in Anspruch nehmen. Sehen Sie nach einer kurzen Zeit nach, ob sich der Status geändert hat.

      Nachdem die Pipeline ausgeführt wurde, ist eine neue Nebenversion des Pakets verfügbar und wird auf der Seite ML-Pakete > [Paketname] angezeigt. In unserem Beispiel ist dies Paketversion 1.1.

      Auf der Seite Pipelines wurde der Status der Pipeline in Erfolgreich geändert. Auf der Seite Pipelinedetails werden die beliebigen Dateien und Ordner im Zusammenhang mit der Pipelineausführung angezeigt. In unserem Beispiel hat die Ausführung eine Datei mit dem Namen my-training-artifact.txt erzeugt.

Konzeptanalogie für die Erstellung Ihrer eigenen Trainingspipelines

Hinweis: Dies ist ein vereinfachtes Beispiel. Damit soll veranschaulicht werden, wie Datasets und Pakete in einer Trainingspipeline interagieren. Die Schritte sollen lediglich das Konzept vermitteln und stellen nicht die Funktionsweise der Plattform dar.
  1. Kopieren Sie die Paketversion 1.0 in ~/mlpackage.
  2. Kopieren Sie das Eingabe-Dataset oder den von der Benutzeroberfläche ausgewählten Dataset-Unterordner in ~/mlpackage/data.
  3. Führen Sie den folgenden Python-Code aus:
    from train import Main 
    m = Main() 
    m.train(./data’) 
    m.save()from train import Main 
    m = Main() 
    m.train(‘./data’) 
    m.save()
  4. Behalten Sie den Inhalt von ~/mlpackage als Paketversion 1.1 bei. Behalten Sie geschriebene Artefakte bei und machen Sie Momentaufnahmen der Daten, wenn save_data auf true festgelegt ist.

Pipelineausgaben

Die Datei _results.json enthält eine Zusammenfassung der Pipelineausführung, die alle Eingaben/Ausgaben und Ausführungszeiten für eine Trainingspipeline offenlegt.
{
    "parameters": {
        "pipeline": "< Pipeline_name >",
        "inputs": {
            "package": "<Package_name>",
            "version": "<version_number>",
            "train_data": "<storage_directory>",
            "gpu": "True/False"
        },
        "env": {
            "key": "value",
            ...
        }
    },
    "run_summary": {
     "execution_time": <time>, #in seconds 
     "start_at": <timestamp>, #in seconds 
     "end_at": <timestamp>, #in seconds 
     "outputs": {
        "train_data": "<test_storage_directory>", 
        "artifacts_data": "<artifacts_storage_directory>", 
        "package": "<Package_name>",
        "version": "<new_version>"
            }
    }
}{
    "parameters": {
        "pipeline": "< Pipeline_name >",
        "inputs": {
            "package": "<Package_name>",
            "version": "<version_number>",
            "train_data": "<storage_directory>",
            "gpu": "True/False"
        },
        "env": {
            "key": "value",
            ...
        }
    },
    "run_summary": {
     "execution_time": <time>, #in seconds 
     "start_at": <timestamp>, #in seconds 
     "end_at": <timestamp>, #in seconds 
     "outputs": {
        "train_data": "<test_storage_directory>", 
        "artifacts_data": "<artifacts_storage_directory>", 
        "package": "<Package_name>",
        "version": "<new_version>"
            }
    }
}

Die ZIP-Datei des ML-Pakets ist die neue Paketversion, die automatisch von der Trainingspipeline generiert wird.

Der Ordner Artefakte ist nur sichtbar, wenn er nicht leer ist, und gruppiert alle von der Pipeline generierten und im Ordner artifacts_directory gespeicherten Artefakte neu.
Dataset-Ordner der nur vorhanden ist, wenn save_data auf den Standardwert true festgelegt wurde; ist eine Kopie des Eingabe-Dataset-Ordners.

Modell-Governance

Die Governance beim Machine Learning ist eine Sache, die nur sehr wenige Unternehmen bewältigen können. Das AI Center ermöglicht jedem Modell die Erstellung einer Momentaufnahme der Daten, auf denen es trainiert wurde – So haben Unternehmen die Option der Rückverfolgbarkeit der Daten.

Sie können eine Momentaufnahme der Eingabedaten erstellen, wenn Sie den Parameter save_training_data mit dem Wert trueübergeben. Dadurch wird eine Momentaufnahme der Daten erstellt, die als Eingabe übergeben wurden. Danach kann ein Benutzer jederzeit zur entsprechenden Seite Pipelinedetails navigieren, um genau zu sehen, welche Daten zur Trainingszeit verwendet wurden.

War diese Seite hilfreich?

Hilfe erhalten
RPA lernen – Automatisierungskurse
UiPath Community-Forum
Uipath Logo White
Vertrauen und Sicherheit
© 2005–2024 UiPath. Alle Rechte vorbehalten