Document Understanding – Über Pipelines

document-understanding

latest

false

Document Understanding-Benutzerhandbuch

Wichtig :

Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.

Über Pipelines

Tipp:

Die Möglichkeit, Extraktoren und Klassifikatoren zu trainieren, ist jetzt einfacher durch die Nutzung der Funktionen Ein-Klick-Extraktion und Ein-Klick-Klassifizierung .

Document Understanding-ML-Pakete können alle drei Pipelinetypen ausführen:

Nach Abschluss hat eine Pipelineausführung zugehörige Ausgaben und Protokolle. Um diese Informationen auf der Registerkarte Pipelines in der linken Seitenleiste anzuzeigen, klicken Sie auf eine Pipeline. Es öffnet sich die Pipelineansicht, die aus Folgendem besteht:

Pipelinedetails wie Typ, Name und Version des ML-Pakets, Dataset, GPU-Nutzung, Parameter und Ausführungszeit
Der Bereich Ausgaben ; dies beinhaltet immer eine _results.json -Datei mit einer Zusammenfassung der Pipelinedetails
Seite Protokolle; die Protokolle können auch auf der Registerkarte ML-Protokolle in der linken Seitenleiste abgerufen werden

Alle Pipelines geben Punktzahlen in drei verschiedenen Dateien zurück:

evaluation_scores_<package name>.txt – Diese Datei enthält Genauigkeitsbewertungen für alle Felder.
evaluation_<package name>.xlsx – Diese Datei enthält eine detaillierte Genauigkeitsaufschlüsselung pro Feld und pro Batch sowie einen Direktvergleich für jedes Feld, mit farblicher Hervorhebung für fehlende (rot) oder teilweise übereinstimmende (gelb) Felder.
evaluation_F1_scores.txt – Diese Datei enthält die F1-Ergebnisse für alle Felder.

Die Genauigkeit wird ermittelt, indem die Anzahl der Übereinstimmungen durch die Gesamtzahl der Vorhersagen geteilt wird. Eine Übereinstimmung erhält eine Gewichtung von 1, während eine teilweise Übereinstimmung eine Gewichtung erhält, die der Levenshtein-Distanz zwischen der Vorhersage und dem wahren Wert entspricht.

Teilweise Übereinstimmungen mit der Levenshtein-Distanz sind die Standardbewertungsmethode für Felder mit dem Inhaltstyp: String. Alle anderen Inhaltstypen (Datumsangaben, Nummern, ID-Nummern, Telefonnummern) verwenden nur die exakte Übereinstimmungsbewertung.

Für String-Felder können Sie diese Einstellung auf der Registerkarte Erweitert des Dialogfelds Feldeinstellungen in der Ansicht Dokumenttyp von Document Understanding ändern.

Wenn ein Auswertungs-Dataset beispielsweise 100 Dokumente enthält und ein Feld, z. B. „Bestellnummer“, auf der Hälfte der Dokumente erscheint und das Modell dann 40 davon korrekt vorhergesagt hat und 10 von ihnen mit einer Levenshtein-Distanz von 0,8 teilweise korrekt ist, dann ist die die Genauigkeit (40 + 10 x 0,8 + 50)/100 = 98 % wäre.

Beachten Sie, dass die 50 Dokumente, bei denen das Feld fehlt und das Modell nichts vorhergesagt hat, ebenfalls als erfolgreiche Vorhersagen gezählt werden.

Bei Trainingspipelines werden die Punktzahlen für das Validierungs-Dataset berechnet. Das Validierungs-Dataset ist eine zufällig ausgewählte Teilmenge von 20 % des gesamten Trainings-Datasets, der in der Trainingspipeline eingereicht wurde.

Trainingspipelines oder vollständige Pipelines können auch verwendet werden für:

Feinabstimmung ML-Modelle mit Daten aus der Validation Station
Automatische Feinabstimmung eines ML-Modells
Hinweis:
Trainingspipelines und Vollpipelines unterstützen Trainingssätze mit maximal 18.000 beschrifteten Seiten.

War diese Seite hilfreich?

Vorherige (previous)OCR-Konfiguration

WeiterBegriffe und Definitionen