- Erste Schritte
- Framework-Komponenten
- Übersicht zur Dokumentklassifizierung
- „Klassifizierer konfigurieren“-Assistent von Classify Document Scope
- Schlüsselwortbasierte Classifier (Keyword Based Classifier)
- Intelligenter Schlüsselwortklassifizierer
- FlexiCapture Classifier
- Machine Learning Classifier
- Dokumentklassifizierung – verwandte Aktivitäten
- ML-Pakete
- Pipelines
- Data Manager
- OCR-Dienste
- Document Understanding – in der Automation Suite bereitgestellt
- Document Understanding – im eigenständigen AI Center bereitgestellt
- Deep Learning
- Lizenzierung
- Referenzen
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Aktivitäten (UiPath.IntelligentOCR.Activities)
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.Omnipage.Activities
- UiPath.PDF.Aktivitäten (UiPath.PDF.Activities)
Einleitung
Das UiPath Document Understanding-Framework erleichtert die Verarbeitung eingehender Dateien, von der Dateiendigitalisierung bis zur Validierung der extrahierten Daten, alles in einer offenen, erweiterbaren und vielseitigen Umgebung.
Document Understanding ist so konzipiert, dass Sie verschiedene Ansätze kombinieren können, um Informationen aus mehreren Dokumenttypen zu extrahieren. Das Hauptziel besteht darin, die Datenextraktion so einfach wie möglich zu machen: das Erstellen eines einzigen Workflows, der Daten aus einer Vielzahl von Dokumenten extrahiert.
Bevor Sie das Document Understanding-Framework verwenden, sollten Sie sich mit den folgenden Document Understanding-Framework-Komponenten vertraut machen:
- Taxonomie Welche Dokumente müssen verarbeitet werden und welche Daten sind von ihnen erforderlich? Wird verwendet, um die Dokumenttypen und die Informationen zu definieren, deren Daten für jeden Dokumenttyp extrahiert werden sollen (Felder), und formalisiert diese Informationen in eine eigene Taxonomiestruktur. Diese Metadateninformationen werden über den Taxonomiemanager verwaltet.
- Digitalisierung Was enthält diese Datei? Wird verwendet, um den Textinhalt und die Struktur des eingehenden Dokuments abzurufen, wodurch eine Datei in maschinenlesbaren Inhalt umgewandelt wird, der im Anschluss weiterverarbeitet werden kann.
- Welche Dokumenttypen von der Taxonomie befinden sich in dieser Datei? Wird verwendet, um automatisch zu bestimmen, welche Dokumenttypen sich in einer digitalisierten Datei befinden.
- Ist die vorhergesagte Klassifizierung korrekt? So kann ich sie überprüfen und korrigieren. Wird zur Unterstützung der menschlichen Validierung und Korrektur der Ergebnisse von der automatischen Klassifizierung und Dokumentaufteilung verwendet.
- Hat der Mensch die Daten überprüft? So kann der Roboter daraus lernen. Wird verwendet, um die von Menschen validierten Informationen an die Klassifizierer zurückzusenden, um sie zur Verbesserung ihrer zukünftigen Vorhersagen zu verwenden.
- Datenextraktion Welche Daten befinden sich in diesem spezifischen Dokument? Erfasst die für den identifizierten Dokumenttyp erforderlichen Informationen innerhalb des angegebenen Eingabedokuments und des Klassifizierungsseitenbereichs.
- Datenextraktionsvalidierung Sind die extrahierten Informationen korrekt? So kann ich sie überprüfen und korrigieren. Unterstützt die menschliche Validierung und Korrektur der Ergebnisse von den automatisch extrahierten Daten.
- Datenextraktionstraining Hat der Mensch die Daten überprüft? So kann der Roboter daraus lernen. Sendet die von Menschen validierten extrahierten Daten an die Extraktoren zurück, um sie zur Verbesserung ihrer Extraktionsvorhersagen zu verwenden.
- Datenverbrauch wird verwendet, um die validierten Daten zu exportieren und sie zu verbrauchen.
- Mess- und Ladelogik wird verwendet, um den Verbrauch von Einheiten pro Seite für jeden verfügbaren Dienst zu erklären.
Das folgende Diagramm zeigt die Document Understanding-Framework-Komponenten und wie sie zusammenhängen:
Das Document Understanding-Framework ist im UiPath.IntelligentOCR.Activities-Paket enthalten. Sobald das UiPath.IntelligentOCR.Activities-Paket installiert ist, wird der Taxonomiemanager-Assistent im oberen Menüband von UiPath Studio angezeigt. Das gleiche Paket enthält alle grundlegenden Document Understanding-Framework-Aktivitäten.
Die Scope-Aktivitäten (Classify Document Scope, Data Extraction Scope, Train Classifiers Scope, Train Extractors Scope), die Teil des Document Understanding-Framework sind, ermöglichen es Ihnen, alle für Ihren Anwendungsfall geeigneten Dokumentklassifizierungs- und Datenextraktionsalgorithmen zu verwenden und diese Algorithmen dann zu trainieren.
Das Document Understanding-Framework kann nicht nur mit den einsatzbereiten Klassifizierern und Extraktoren, sondern auch mit allen benutzerdefinierten verwendet werden. Diese können mithilfe der abstrakten Klassen aus dem Paket erstellt und als Klassifizierungs- oder Datenextraktionsaktivitäten implementiert werden. Benutzerdefinierte OCR-Module können auch mithilfe der abstrakten Klassen aus dem Paket erstellt werden.
Spezielle Document Understanding-Kurse finden Sie in der UiPath RPA Academy.
Das UiPath Community Forum ist der Ort, an dem Sie Unterstützung von unserer ständig wachsenden Benutzergemeinschaft erhalten.