document-understanding

2020.10

false

Wichtig :

Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.

Veraltet

Document Understanding-Benutzerhandbuch.

BEREITSTELLUNG:

Letzte Aktualisierung 4. Feb. 2025

Trainings- und Auswertungspipelines

ML-Pakete von Document Understanding können alle drei Pipelinetypen ausführen (vollständige Pipeline, Training und Auswertung).

Für die meisten Anwendungsfälle müssen keine Parameter angegeben werden, das Modell verwendet erweiterte Techniken, um ein performantes Modell zu finden.

Sie können an zwei Stellen Informationen über eine Pipeline abrufen: in der Ansicht „Details“ über das Kontextmenü rechts neben der Pipelines-Tabelle oder in der Registerkarte „ML-Protokolle“ in der linken Seitenleiste. Die Detailansicht enthält einen Ausgabebereich und eine Protokollseite. Der Bereich „Ausgaben“ enthält immer eine Datei _results.json, die eine Zusammenfassung der Pipelinedetails enthält, z. B. Paketversion, Dataset, GPU-Nutzung und Ausführungszeit.

Pipelines für Training und erneutes Training

Es gibt zwei Arten von Trainingspipelines:

Auf einem ML-Paket vom Typ Document Understanding
Bei einem ML-Paket eines anderen Typs, wie etwa „Invoices“, „Receipts“, „Purchase Orders“, „Utility Bills“, „Invoices India“ oder „Invoices Australia“.

Das Training mit einem Document Understanding-Paket trainiert ein Modell nur von Grund auf anhand des Datasets, der als Eingabe bereitgestellt wurde.

Sind die verwendeten Dokumente ungefähr gleich (Formulare), erhalten Sie möglicherweise gute Ergebnisse mit nur 30–50 Beispielen.

Für Anwendungsfälle mit unterschiedlichen Dokumenten und nur regulären („Header“)-Feldern, benötigen Sie mindestens 20-50 Beispiele pro Feld. Wenn Sie also 10 reguläre Felder extrahieren müssen, benötigen Sie mindestens 200-500 Beispiele.

Für Spaltenfelder (z. B. Zeilenpositionen) benötigen Sie jeweils mindestens 50–200 Beispiele, sodass Sie für 5 Spaltenfelder mit sauberen und einfachen Layouts mit 300–400 Beispielen gute Ergebnisse erzielen können. Für sehr komplexe mit unterschiedlichen Layouts benötigen jedoch möglicherweise mehr als 1000.

Wenn Sie auch mehrere Sprachen abdecken müssen, benötigen Sie mindestens 200-300 Beispiele pro Sprache. Diese Zahlen müssen sich nicht addieren, außer bei zusätzlichen Sprachen. Für 10 Headerfelder und 5 Spaltenfelder können 500 Beispiele ausreichen, in einigen Fällen jedoch über 1000.

Das Training mit einem der in Schritt 2 beschriebenen Pakete erfordert eine zusätzliche Eingabe: ein Basismodell. Wir bezeichnen dies auch als „erneutes Trainieren“, da Sie nicht von vorne beginnen, sondern von einem Basismodell ausgehen. Dieser Ansatz verwendet eine Technik namens Transferlernen (Transfer Learning), bei der das Modell die Informationen nutzt, die in einem anderen, bereits vorhandenen Modell codiert sind. Wenn Sie in denselben Feldern trainieren, um nur die Genauigkeit zu optimieren, erzielen Sie möglicherweise gute Ergebnisse mit nur 100 bis 500 zusätzlichen Dokumenten. Wenn Sie dem Modell neue Felder hinzufügen, benötigen Sie 30 bis 50 Dokumente pro neuem Feld, um gute Ergebnisse zu erzielen. Bei der Auswahl der zu verwendenden Basismodellversion empfehlen wir Ihnen, immer die von UiPath sofort verfügbare Version 1.0 zu verwenden, die bereits trainiert wurde.

Hinweis:

Klassifizierungsfelder werden nicht neu trainiert, daher müssen Sie sicherstellen, dass das Dataset, das Sie beschriften, beim erneuten Training mindestens 10–20 Beispiele aus jeder Klasse enthält, die das Modell erkennen können soll, unabhängig von der Leistung des vortrainierten Modells, das Sie als Basismodell verwenden.

Feinabstimmung mithilfe von Daten aus der Validation Station (Vorschau)

In der September 2020 Version von AI Fabric lassen sich ML-Modelle auch mithilfe von Daten anpassen, die von einem Menschen mithilfe der Validation Station überprüft wurden.

Da Ihre RPA Workflow Dokumente mit einem vorhandenen ML-Modell verarbeitet, können einige Dokumente eine menschliche Validierung mithilfe der Aktivität Validation Station erfordern (verfügbar für „Attended Bots“ oder im Browser mithilfe von Orchestrator Action Center).

Die in der Validation Station generierten validierten Daten können mit der Aktivität Machine Learning Extractor Trainer exportiert und zur Feinabstimmung von ML-Modellen in AI Fabric verwendet werden.

Es wird nicht empfohlen, ML-Modelle von Grund auf (d. h. mit dem ML-Paket von Document Understanding) mit Daten aus der Validation Station zu trainieren, es sei denn vorhandene ML-Modelle (einschließlich vorgefertigter ML-Modelle) sollen mithilfe dieser Daten angepasst werden.

Die detaillierten Schritte zur Feinabstimmung eines ML-Modells finden Sie im Abschnitt Validation Station-Dataset-Import der Data Manager-Dokumentation.

Wichtig: Für die erfolgreiche Ausführung von Trainings- oder vollständigen Pipelines empfehlen wir dringend mindestens 25 Dokumente und mindestens 10 Beispiele für jedes beschriftete Feld in Ihrem Dataset. Andernfalls zeigt die Pipeline den Fehler „Dataset-Erstellung fehlgeschlagen“ an.

Wichtig: Wenn mehr Daten mit Data Manager oder aus der Validation Station beschriftet werden, werden die besten Ergebnisse erzielt, indem einem einzelnen Dataset mehr Daten hinzugefügt werden und immer mit dem bereitgestellten Basismodell von UiPath mit Nebenversion 0 trainiert wird. Es wird dringend empfohlen, ein erneutes Training mit einem Basismodell zu vermeiden, das Sie zuvor selbst trainiert haben (Nebenversion 1 oder höher).

Training auf GPU oder CPU

Die Verwendung eines GPUs (AI Robot Pro) für das Training ist mindestens 10 Mal schneller als die Verwendung eines CPUs (AI Robot). Bitte beachten Sie, dass die GPU zum Trainieren von Document Understanding-Modellen mindestens 11 GB Video-RAM erfordert, um erfolgreich ausgeführt zu werden.

Die GPU-Modelle müssen Version 418.0 oder höher unterstützen MSI-Treiber und CUDA-Treiber der Version 9.0 oder höher.

Das Training wird auf CPU nur für Datasets bis zu 500 Bilder unterstützt. Bei größeren Datasets müssen Sie mit GPU trainieren.

Dataset-Format

Ein Ordner, der das exportierte Dataset aus Data Manager enthält. Dies beinhaltet:

images: Ordner mit Bildern aller beschrifteten Seiten
latest: ein Ordner mit JSON-Dateien der beschrifteten Daten von jeder Seite
schema.json: eine Datei mit den zu extrahierenden Feldern und deren Typen
split.csv: eine Datei mit den Teilen jedes Dokuments, die während der Trainingspipeline entweder für TRAIN oder VALIDATE verwendet werden

Umgebungsvariablen

ml_model.epochs: passen die Anzahl der Epochen für das Training oder die vollständige Pipeline an (Standardwert: 150)

Artefakte

Wenn es sich bei der Pipeline um eine vollständige oder eine Auswertungspipeline handelt, enthält der Ausgabebereich auch einen Ordner „artifacts“, der zwei Dateien enthält:

evaluation_metrics.txt enthält die F1-Punktzahl der vorhergesagten Felder. Beachten Sie, dass für Zeilenelemente nur eine globale Punktzahl für alle Spalten erhalten wird.
evaluation.xlsx ist eine Excel-Kalkulationstabelle mit einem nebeneinanderstehenden Vergleich der Ground Truth mit dem vorhergesagten Wert für jedes vom Modell vorhergesagte Feld sowie einer Genauigkeitsmetrik pro Dokument, um die Genauigkeit zu erhöhen. Daher werden oben die ungenausten Dokumente präsentiert, um die Diagnose und Fehlerbehebung zu erleichtern.

Auf dieser Seite