- Erste Schritte
- Framework-Komponenten
- Document Understanding im AI Center
- Pipelines
- ML-Pakete
- Data Manager
- OCR-Dienste
- Lizenzierung
- Referenzen
Datenextraktionstraining – Übersicht
Datenextraktionstraining ist eine Komponente im Document Understanding Framework, die hilft, die Feedback-Schleife für Extraktoren zu beenden, die von menschlichem Feedback lernen können. Dies würde Extraktoren helfen, bei nachfolgenden Dokumenten mehr zu leisten (abhängig von ihren eigenen Lernfunktionen).
Sie können Document Understanding-Prozesse erstellen, die keine Trainingskomponente enthalten. Dies kann verschiedene Gründe haben, beispielsweise:
- die verwendeten Extraktoren unterstützen kein erneutes Training
- Sie möchten kein erneutes Training durchführen, da der Prozess immer das gleiche Training verwenden soll.
- Sie möchten das Extraktortraining offline aktualisieren und verwalten seine Aktualisierungen außerhalb Ihres DU-Prozesses.
Das Training Ihrer Extraktoren im Rahmen der normalen Prozessnutzung ist jedoch in den meisten Fällen von großem Nutzen, da die Extraktoren ihre eigenen Trainingsdaten sammeln und ihre eigenen Aktualisierungen durchführen können, indem sie die Informationen der menschlichen Validierung erfassen, ohne dass Sie Ihre bereits vorhandenen Workflows in irgendeiner Weise aktualisieren müssen. Sie werden sozusagen selbstlernende Algorithmen, die es sich selbst beibringen können, in Zukunft besser zu agieren, indem sie die Daten nutzen, die Menschen als richtig validiert haben.
Das Datenextraktionstraining erfolgt über die Aktivität „Train Extractors Scope“. Sie können einen oder mehrere Extraktoren trainieren, da die Scope-Aktivität die Aufgabe des Konfigurierens und Ausführens eines oder mehrerer Algorithmen für das Extraktortraining in einer Aktion ausführt.
Das Datenextraktionstraining wird in der Regel nach der Datenextraktionsvalidierung ausgeführt: Nur von Menschen bestätigtes Feedback sollte für das Training an die Klassifizierer zurückgeschickt werden, um die Genauigkeit der Trainingsdaten des Algorithmus zu gewährleisten.
Das Datenextraktionstraining sollte sowohl ausgeführt werden, wenn automatisch extrahierte Daten korrekt sind (es waren keine Korrekturen erforderlich), als auch im Falle menschlicher Korrekturen. Der Grund dafür ist, dass die Algorithmen aus beiden Fällen lernen können.
Sie können sowohl Extraktoren trainieren, die in der Komponente Datenextraktion verwendet wurden, als auch Extraktoren, die nicht für die Datenextraktionsvorhersage verwendet wurden. Anhand des letzteren Ansatzes können Trainingsdaten gesammelt und ein Klassifizierer von Grund auf trainiert werden, damit er sich später einsetzen lässt, indem er zu Document Understanding Workflows hinzugefügt wird.
Kurz gesagt führt Train Extractors Scope die folgenden Aktionen aus:
- Liefert allen Extraktortrainern (Trainingsalgorithmen) die erforderlichen Konfigurationen zur Ausführung.
- Akzeptiert einen oder mehrere Extraktortrainer.
- Ermöglicht die Filterung nach Dokumenttyp- und Feldebene, die Taxonomiezuordnung zwischen der Projekttaxonomie und allen internen Extraktortaxonomien.
„Train Extractors Scope“ ermöglicht das Konfigurieren über den Assistenten „Extraktoren konfigurieren“. Sie können anpassen,
- welche Dokumenttypen und Felder für das Training an welchen Extraktortrainer gesendet werden,
- welche Taxonomiezuordnung auf Dokumenttyp- und Feldebene, zwischen der Projekttaxonomie und der internen Taxonomie des Extraktors (falls vorhanden) gilt.
Mit „Train Extractors Scope“ können Sie auch ein eindeutiges Paar von Extraktortrainer-Aktivitäten identifizieren, indem Sie im Training Scope denselben Framework Alias String verwenden wie im Data Extraction Scope.
Derzeit verfügt nur der Machine Learning Extractor über Funktionen für Training bzw. erneutes Training. Die Aktivität befindet sich im Paket UiPath.DocumentUnderstanding.ML.Activities und ihre Trainingsaktivität heißt Machine Learning Extractor Trainer.