- Überblick
- Erste Schritte
- Aktivitäten
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Aktivitäten (UiPath.IntelligentOCR.Activities)
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.Omnipage.Activities
- UiPath.PDF.Aktivitäten (UiPath.PDF.Activities)
- Insights-Dashboards
- Document Understanding-Prozess
- Schnellstart-Tutorials
- Framework-Komponenten
- Überblick
- Document Understanding-Aktivitäten
- Übersicht zur Dokumentklassifizierung
- „Klassifizierer konfigurieren“-Assistent von Classify Document Scope
- Intelligenter Schlüsselwortklassifizierer
- Schlüsselwortbasierte Classifier (Keyword Based Classifier)
- Machine Learning Classifier
- Generativer Klassifizierer
- Dokumentklassifizierung – verwandte Aktivitäten
- Datenverbrauch
- API-Aufrufe
- ML-Pakete
- Überblick
- Document Understanding – ML-Paket
- DocumentClassifier – ML-Paket
- ML-Pakete mit OCR-Funktionen
- 1040 – ML-Paket
- 1040 Anlage C – ML-Paket
- 1040 Anlage D – ML-Paket
- 1040 Anlage E – ML-Paket
- 1040x – ML-Paket
- 3949a – ML-Paket
- 4506T – ML-Paket
- 709 – ML-Paket
- 941x – ML-Paket
- 9465 – ML-Paket
- ACORD131 – ML-Paket
- ACORD140 – ML-Paket
- ACORD25 – ML-Paket
- Bank Statements – ML-Paket
- BillsOfLading – ML-Paket
- Certificate of Incorporation – ML-Paket
- Certificates of Origin – ML-Paket
- Checks – ML-Paket
- Children Product Certificate – ML-Paket
- CMS1500 – ML-Paket
- EU Declaration of Conformity – ML-Paket
- Financial Statements – ML-Paket
- FM1003 – ML-Paket
- I9 – ML-Paket
- ID Cards – ML-Paket
- Invoices – ML-Paket
- InvoicesAustralia – ML-Paket
- InvoicesChina – ML-Paket
- Rechnungen Hebräisch – ML-Paket
- InvoicesIndia – ML-Paket
- InvoicesJapan – ML-Paket
- Invoices Shipping – ML-Paket
- Packing Lists – ML-Paket
- Gehaltsabrechnungen (Pay slips) – ML-Paket
- Passports – ML-Paket
- Purchase Orders – ML-Paket
- Receipts – ML-Paket
- RemittanceAdvices – ML-Paket
- UB04 – ML-Paket
- Utility Bills – ML-Paket
- Vehicle Titles – ML-Paket
- W2 – ML-Paket
- W9 – ML-Paket
- Andere out-of-the-box ML-Pakete
- Öffentliche Endpunkte
- Einschränkungen für den Datenverkehr
- OCR-Konfiguration
- Pipelines
- OCR-Dienste
- Unterstützte Sprachen
- Deep Learning
- Lizenzierung
Document Understanding-Benutzerhandbuch.
Datenextraktionstraining – Übersicht
Data Extraction Training is a component in the Document UnderstandingTM Framework that helps in closing the feedback loop for extractors that are capable of learning from human feedback. This would help extractors perform better on subsequent documents (depending on their own learning capabilities).
Sie können Document Understanding-Prozesse erstellen, die keine Trainingskomponente enthalten. Dies kann verschiedene Gründe haben, beispielsweise:
- die verwendeten Extraktoren unterstützen kein erneutes Training
- Sie möchten kein erneutes Training durchführen, da der Prozess immer das gleiche Training verwenden soll.
- Sie möchten das Extraktortraining offline aktualisieren und verwalten seine Aktualisierungen außerhalb Ihres DU-Prozesses.
Das Training Ihrer Extraktoren im Rahmen der normalen Prozessnutzung ist jedoch in den meisten Fällen von großem Nutzen, da die Extraktoren ihre eigenen Trainingsdaten sammeln und ihre eigenen Aktualisierungen durchführen können, indem sie die Informationen der menschlichen Validierung erfassen, ohne dass Sie Ihre bereits vorhandenen Workflows in irgendeiner Weise aktualisieren müssen. Sie werden sozusagen selbstlernende Algorithmen, die es sich selbst beibringen können, in Zukunft besser zu agieren, indem sie die Daten nutzen, die Menschen als richtig validiert haben.
Das Datenextraktionstraining erfolgt über die Aktivität „Train Extractors Scope“. Sie können einen oder mehrere Extraktoren trainieren, da die Scope-Aktivität die Aufgabe des Konfigurierens und Ausführens eines oder mehrerer Algorithmen für das Extraktortraining in einer Aktion ausführt.
Das Datenextraktionstraining wird in der Regel nach der Datenextraktionsvalidierung ausgeführt: Nur von Menschen bestätigtes Feedback sollte für das Training an die Klassifizierer zurückgeschickt werden, um die Genauigkeit der Trainingsdaten des Algorithmus zu gewährleisten.
Das Datenextraktionstraining sollte sowohl ausgeführt werden, wenn automatisch extrahierte Daten korrekt sind (es waren keine Korrekturen erforderlich), als auch im Falle menschlicher Korrekturen. Der Grund dafür ist, dass die Algorithmen aus beiden Fällen lernen können.
Sie können sowohl Extraktoren trainieren, die in der Komponente Datenextraktion verwendet wurden, als auch Extraktoren, die nicht für die Datenextraktionsvorhersage verwendet wurden. Anhand des letzteren Ansatzes können Trainingsdaten gesammelt und ein Klassifizierer von Grund auf trainiert werden, damit er sich später einsetzen lässt, indem er zu Document Understanding Workflows hinzugefügt wird.
Kurz gesagt führt Train Extractors Scope die folgenden Aktionen aus:
- Liefert allen Extraktortrainern (Trainingsalgorithmen) die erforderlichen Konfigurationen zur Ausführung.
- Akzeptiert einen oder mehrere Extraktortrainer.
- Ermöglicht die Filterung nach Dokumenttyp- und Feldebene, die Taxonomiezuordnung zwischen der Projekttaxonomie und allen internen Extraktortaxonomien.
„Train Extractors Scope“ ermöglicht das Konfigurieren über den Assistenten „Extraktoren konfigurieren“. Sie können anpassen,
- welche Dokumenttypen und Felder für das Training an welchen Extraktortrainer gesendet werden,
- welche Taxonomiezuordnung auf Dokumenttyp- und Feldebene, zwischen der Projekttaxonomie und der internen Taxonomie des Extraktors (falls vorhanden) gilt.
Mit „Train Extractors Scope“ können Sie auch ein eindeutiges Paar von Extraktortrainer-Aktivitäten identifizieren, indem Sie im Training Scope denselben Framework Alias String verwenden wie im Data Extraction Scope.
Derzeit verfügt nur der Machine Learning Extractor über Funktionen für Training bzw. erneutes Training. Die Aktivität befindet sich im Paket UiPath.DocumentUnderstanding.ML.Activities und ihre Trainingsaktivität heißt Machine Learning Extractor Trainer.