document-understanding
latest
false
UiPath logo, featuring letters U and I in white
Document Understanding-Benutzerhandbuch.
Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
Last updated 14. Nov. 2024

Über Pipelines

Document UnderstandingTM -ML-Pakete können alle drei Pipelinetypen ausführen:

Nach Abschluss hat eine Pipelineausführung zugehörige Ausgaben und Protokolle. Um diese Informationen auf der Registerkarte Pipelines in der linken Seitenleiste anzuzeigen, klicken Sie auf eine Pipeline. Es öffnet sich die Pipelineansicht, die aus Folgendem besteht:

  • Pipelinedetails wie Typ, Name und Version des ML-Pakets, Dataset, GPU-Nutzung, Parameter und Ausführungszeit
  • Bereich Ausgaben; dieser enthält immer eine _results.json-Datei mit einer Zusammenfassung der Pipelinedetails
  • Seite Protokolle; die Protokolle können auch auf der Registerkarte ML-Protokolle in der linken Seitenleiste abgerufen werden
Alle Pipelines geben Punktzahlen in drei verschiedenen Dateien zurück:
  • evaluation_scores_<package name>.txt – Diese Datei enthält Genauigkeitsbewertungen für alle Felder.
  • evaluation_<package name>.xlsx – Diese Datei enthält eine detaillierte Genauigkeitsaufschlüsselung pro Feld und pro Batch sowie einen Direktvergleich für jedes Feld, mit farblicher Hervorhebung für fehlende (rot) oder teilweise übereinstimmende (gelb) Felder.
  • evaluation_F1_scores.txt – Diese Datei enthält die F1-Ergebnisse für alle Felder.
Die Genauigkeit wird ermittelt, indem die Anzahl der Übereinstimmungen durch die Gesamtzahl der Vorhersagen geteilt wird. Eine Übereinstimmung erhält eine Gewichtung von 1, während eine teilweise Übereinstimmung eine Gewichtung erhält, die der Levenshtein-Distanz zwischen der Vorhersage und dem wahren Wert entspricht.
Hinweis:

Teilweise Übereinstimmungen mit der Levenshtein-Distanz sind die Standardbewertungsmethode für Felder mit dem Inhaltstyp: String. Alle anderen Inhaltstypen (Datumsangaben, Nummern, ID-Nummern, Telefonnummern) verwenden nur die exakte Übereinstimmungsbewertung.

Für String-Felder können Sie diese Einstellung auf der Registerkarte Erweitert des Dialogfelds Feldeinstellungen in der Ansicht Dokumenttyp von Document Understanding ändern.

Wenn ein Auswertungs-Dataset beispielsweise 100 Dokumente enthält und ein Feld, z. B. „Bestellnummer“, auf der Hälfte der Dokumente erscheint und das Modell dann 40 davon korrekt vorhergesagt hat und 10 von ihnen mit einer Levenshtein-Distanz von 0,8 teilweise korrekt ist, dann ist die die Genauigkeit (40 + 10 x 0,8 + 50)/100 = 98 % wäre.

Hinweis:

Beachten Sie, dass die 50 Dokumente, bei denen das Feld fehlt und das Modell nichts vorhergesagt hat, ebenfalls als erfolgreiche Vorhersagen gezählt werden.

Bei Trainingspipelines werden die Punktzahlen für das Validierungs-Dataset berechnet. Das Validierungs-Dataset ist eine zufällig ausgewählte Teilmenge von 20 % des gesamten Trainings-Datasets, der in der Trainingspipeline eingereicht wurde.

Trainingspipelines oder vollständige Pipelines können auch verwendet werden für:

Achtung:

Trainingspipelines und vollständige Pipelines unterstützen Trainingssätze von maximal 18.000 beschrifteten Seiten.

War diese Seite hilfreich?

Hilfe erhalten
RPA lernen – Automatisierungskurse
UiPath Community-Forum
Uipath Logo White
Vertrauen und Sicherheit
© 2005–2024 UiPath. Alle Rechte vorbehalten