- Überblick
- Document Understanding-Prozess
- Schnellstart-Tutorials
- Framework-Komponenten
- Überblick
- Document Understanding-Aktivitäten
- Übersicht zur Dokumentklassifizierung
- „Klassifizierer konfigurieren“-Assistent von Classify Document Scope
- Intelligenter Schlüsselwortklassifizierer
- Schlüsselwortbasierte Classifier (Keyword Based Classifier)
- Machine Learning Classifier
- Generativer Klassifizierer
- Dokumentklassifizierung – verwandte Aktivitäten
- Datenverbrauch
- API-Aufrufe
- ML-Pakete
- Überblick
- Document Understanding – ML-Paket
- DocumentClassifier – ML-Paket
- ML-Pakete mit OCR-Funktionen
- 1040 – ML-Paket
- 1040 Anlage C – ML-Paket
- 1040 Anlage D – ML-Paket
- 1040 Anlage E – ML-Paket
- 1040x – ML-Paket
- 3949a – ML-Paket
- 4506T – ML-Paket
- 709 – ML-Paket
- 941x – ML-Paket
- 9465 – ML-Paket
- 990 – ML-Paket – Vorschau
- ACORD125 – ML-Paket
- ACORD126 – ML-Paket
- ACORD131 – ML-Paket
- ACORD140 – ML-Paket
- ACORD25 – ML-Paket
- Bank Statements – ML-Paket
- BillsOfLading – ML-Paket
- Certificate of Incorporation – ML-Paket
- Certificates of Origin – ML-Paket
- Checks – ML-Paket
- Children Product Certificate – ML-Paket
- CMS1500 – ML-Paket
- EU Declaration of Conformity – ML-Paket
- Financial Statements – ML-Paket
- FM1003 – ML-Paket
- I9 – ML-Paket
- ID Cards – ML-Paket
- Invoices – ML-Paket
- InvoicesChina – ML-Paket
- Rechnungen Hebräisch – ML-Paket
- InvoicesIndia – ML-Paket
- InvoicesJapan – ML-Paket
- Invoices Shipping – ML-Paket
- Packing Lists – ML-Paket
- Passports – ML-Paket
- Gehaltsabrechnungen (Pay slips) – ML-Paket
- Purchase Orders – ML-Paket
- Receipts – ML-Paket
- RemittanceAdvices – ML-Paket
- UB04 – ML-Paket
- Utility Bills – ML-Paket
- Vehicle Titles – ML-Paket
- W2 – ML-Paket
- W9 – ML-Paket
- Andere out-of-the-box ML-Pakete
- Öffentliche Endpunkte
- Hardwareanforderungen
- Pipelines
- Dokumentmanager
- OCR-Dienste
- Deep Learning
- Insights-Dashboards
- Document Understanding – in der Automation Suite bereitgestellt
- Document Understanding – im eigenständigen AI Center bereitgestellt
- Aktivitäten
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Aktivitäten (UiPath.IntelligentOCR.Activities)
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.Omnipage.Activities
- UiPath.PDF.Aktivitäten (UiPath.PDF.Activities)
Übersicht über die Datenextraktion
Die Datenextraktion ist eine Komponente im Document UnderstandingTM -Framework, mit der Sie sehr spezifische für Sie relevante Informationen aus Ihren Dokumenttypen identifizieren können.
Die Informationen, die das Ziel der Datenextraktion sein können, werden in der Projekt-Taxonomie als Liste aus Feldern für einen bestimmten Dokumenttyp definiert. Ein Feld, das nicht in der Taxonomie Ihres Projekts angezeigt wird, kann nicht für die automatische Datenextraktion konfiguriert werden.
Der Datenextraktionsschritt des Document Understanding-Framework stellt sicher, dass die konfigurierten Extraktoren in der richtigen Reihenfolge für die richtige Liste aus Feldern für den richtigen Seitenbereich der zu verarbeitenden Datei aufgerufen werden. Wenn also in der gleichen Datei zwei oder mehr Dokumenttypen identifiziert werden (für verschiedene Seitenbereiche), wird empfohlen, dass der Datenextraktionsschritt mehrmals ausgeführt wird, einmal für jedes Klassifizierungsergebnis. Das Ausführen der Datenextraktion für ein Klassifizierungsergebnis mit einem bestimmten Seitenbereich stellt sicher, dass die Daten für die Extraktion nur von diesen Seiten und nur für diesen Dokumenttyp angepeilt werden.
Die Datenextraktion erfolgt über die Aktivität Data Extraction Scope. Um Daten von Dokumenten zu extrahieren, können Sie einen oder mehrere Extraktoren verwenden, da die Scope-Aktivität die Aufgabe hat, einen oder mehrere Algorithmen für die Dokumentextrahierung zu konfigurieren und auszuführen und eine einfache, einheitliche Konfigurationsoption für alle Anforderungen zu bieten.
Kurz gesagt führt Data Extraction Scope die folgenden Aktionen aus:
- Stellt allen Extraktoren (Extraktionsalgorithmen) die erforderlichen Konfigurationen und Eingaben zur Verfügung, damit sie ausgeführt werden können.
- Akzeptiert einen oder mehrere Extraktoren.
- Ermöglicht die Aktivierung der Feldebene, die Taxonomiezuordnung und die Einstellungen für den Mindestkonfidenzschwellenwert auf Extraktorebene.
- Meldet extrahierte Daten auf einheitliche Weise, unabhängig vom Extraktor, der diese bestimmten Daten gemeldet hat.
„Data Extraction Scope“ ermöglicht das Konfigurieren über den Assistenten „Extraktoren konfigurieren“. Sie können Folgendes anpassen:
- welche Felder von jedem Extraktor angefordert werden,
- was der Mindestkonfidenzschwellenwert für einen bestimmten Datenpunktextraktor je nach Klassifizierer ist,
- welche Taxonomiezuordnung auf Feldebene, zwischen der Projekttaxonomie und der internen Taxonomie des Extraktors (falls vorhanden) gilt.
Sie können Extraktoren beliebig kombinieren, indem Sie einen hybriden Ansatz verwenden, bei dem Sie anfordern können, dass einige Felder von einem bestimmten Extraktor extrahiert werden, während andere Felder von einem anderen Extraktor extrahiert werden.
Sie können sogar „Fallback“-Regeln für die Datenextraktion implementieren: Wenn ein bestimmter Extraktor keinen akzeptablen Wert für ein bestimmtes Feld meldet, rufen Sie einen anderen Extraktor auf.
Bitte beachten Sie, dass die Reihenfolge der Extraktoren bei „Data Extraction Scope“ wichtig ist:
- Extraktoren werden mit einer Priorität von links nach rechts ausgeführt;
- Ein extrahierter Wert für ein Feld wird nur akzeptiert, wenn seine Konfidenz größer/gleich dem festgelegten Mindestkonfidenzschwellenwert für diesen Extraktor ist;
-
Ein Extraktor wird nur für den bereitgestellten Klassifizierungsseitenbereich und nur für die Felder, die gemäß der Konfiguration von „Data Extraction Scope“ angefordert werden, und für die Felder, die nicht bereits ein akzeptables Ergebnis von früheren Extraktoren erhalten haben, ausgeführt.
Wichtig: Wenn Data Extraction Scope kein Feld von einem bestimmten Extraktor anfordert, wird dieser Extraktor nicht ausgeführt. Dies kann vorkommen, wenn ein Extraktor nicht für einen bestimmten eingehenden Dokumenttyp konfiguriert ist oder wenn ein Extraktor als „Fallback“ verwendet wird und die vorherigen Extraktoren bereits alle erwarteten Daten gemeldet haben.
Basierend auf den Anforderungen des Anwendungsfalls können Sie aus mehreren Datenextraktionsalgorithmen, den sogenannten Extraktoren, wählen.
Sie können jeden Extraktor verwenden, der im Paket UiPath.IntelligentOCR.Activities oder UiPath.DocumentUnderstanding.ML.Activities verfügbar ist.
Die verfügbaren Extraktoren sind:
Sie können jederzeit einen eigenen Extraktor erstellen, indem Sie die öffentlichen „Document Processing Contracts“ verwenden und so jeden Algorithmus implementieren können, der zu Ihrem Anwendungsfall passt.