- Überblick
- Document Understanding-Prozess
- Schnellstart-Tutorials
- Framework-Komponenten
- Übersicht zur Dokumentklassifizierung
- „Klassifizierer konfigurieren“-Assistent von Classify Document Scope
- FlexiCapture Classifier
- Intelligenter Schlüsselwortklassifizierer
- Schlüsselwortbasierte Classifier (Keyword Based Classifier)
- Machine Learning Classifier
- Dokumentklassifizierung – verwandte Aktivitäten
- ML-Pakete
- Überblick
- Document Understanding – ML-Paket
- DocumentClassifier – ML-Paket
- ML-Pakete mit OCR-Funktionen
- 1040 – ML-Paket
- 1040 Anlage C – ML-Paket
- 1040 Anlage D – ML-Paket
- 1040 Anlage E – ML-Paket
- 4506T – ML-Paket
- 990 – ML-Paket – Vorschau
- ACORD125 – ML-Paket
- ACORD126 – ML-Paket
- ACORD131 – ML-Paket
- ACORD140 – ML-Paket
- ACORD25 – ML-Paket
- Bank Statements – ML-Paket
- BillsOfLading – ML-Paket
- Certificate of Incorporation – ML-Paket
- Certificates of Origin – ML-Paket
- Checks – ML-Paket
- Children Product Certificate – ML-Paket
- CMS1500 – ML-Paket
- EU Declaration of Conformity – ML-Paket
- Financial Statements – ML-Paket
- FM1003 – ML-Paket
- I9 – ML-Paket
- ID Cards – ML-Paket
- Invoices – ML-Paket
- InvoicesAustralia – ML-Paket
- InvoicesChina – ML-Paket
- InvoicesIndia – ML-Paket
- InvoicesJapan – ML-Paket
- Invoices Shipping – ML-Paket
- Packing Lists – ML-Paket
- Passports – ML-Paket
- Gehaltsabrechnungen (Pay slips) – ML-Paket
- Purchase Orders – ML-Paket
- Zahlungsbelege – ML-Paket
- RemittanceAdvices – ML-Paket
- UB04 – ML-Paket
- Utility Bills – ML-Paket
- Vehicle Titles – ML-Paket
- W2 – ML-Paket
- W9 – ML-Paket
- Andere out-of-the-box ML-Pakete
- Öffentliche Endpunkte
- Hardwareanforderungen
- Pipelines
- Dokumentmanager
- OCR-Dienste
- Deep Learning
- Document Understanding – in der Automation Suite bereitgestellt
- Installieren und verwenden
- First Run Experience
- UiPathDocumentOCR bereitstellen
- Ein out-of-the-box ML-Paket bereitstellen
- Offline-Pakete 2023.10.12+patch1
- Offlinepakete 2023.10.12
- Offline-Pakete 2023.10.11
- Offline-Bundles 2023.10.10
- Offline-Bundles 2023.10.9
- Offlinepakete 2023.10.8
- Offlinepakete 2023.10.7+patch1
- Offlinepakete 2023.10.7
- Offlinepakete 2023.10.6
- Offlinepakete 2023.10.5
- Offlinepakete 2023.10.4
- Offlinepakete 2023.10.3
- Offlinepakete 2023.10.2
- Offlinepakete 2023.10.1
- Offlinepakete 2023.10.0
- Verwenden von Document Manager
- Framework verwenden
- Document Understanding – im eigenständigen AI Center bereitgestellt
- Lizenzierung
- Aktivitäten
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Aktivitäten (UiPath.IntelligentOCR.Activities)
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.Omnipage.Activities
- UiPath.PDF.Aktivitäten (UiPath.PDF.Activities)

Document Understanding user guide
Übersicht über die Datenextraktion
Was ist Datenextraktion
Data Extraction is a component in the Document UnderstandingTM Framework that helps in identifying very specific information that you are interested in, from your document types.
Die Informationen, die das Ziel der Datenextraktion sein können, werden in der Projekt-Taxonomie als Liste aus Feldern für einen bestimmten Dokumenttyp definiert. Ein Feld, das nicht in der Taxonomie Ihres Projekts angezeigt wird, kann nicht für die automatische Datenextraktion konfiguriert werden.
Der Datenextraktionsschritt des Document Understanding-Framework stellt sicher, dass die konfigurierten Extraktoren in der richtigen Reihenfolge für die richtige Liste aus Feldern für den richtigen Seitenbereich der zu verarbeitenden Datei aufgerufen werden. Wenn also in der gleichen Datei zwei oder mehr Dokumenttypen identifiziert werden (für verschiedene Seitenbereiche), wird empfohlen, dass der Datenextraktionsschritt mehrmals ausgeführt wird, einmal für jedes Klassifizierungsergebnis. Das Ausführen der Datenextraktion für ein Klassifizierungsergebnis mit einem bestimmten Seitenbereich stellt sicher, dass die Daten für die Extraktion nur von diesen Seiten und nur für diesen Dokumenttyp angepeilt werden.
Wie die Datenextraktionskomponente verwendet wird
Data Extraction is done through the Data Extraction Scope activity. To extract data from documents, you can use one or more extractors, as the scope activity has the role of configuring and executing one or more algorithms for data extraction and of offering an easy, unitary configuration option for all your needs.
Kurz gesagt führt Data Extraction Scope die folgenden Aktionen aus:
- Stellt allen Extraktoren (Extraktionsalgorithmen) die erforderlichen Konfigurationen und Eingaben zur Verfügung, damit sie ausgeführt werden können.
- Akzeptiert einen oder mehrere Extraktoren.
- Ermöglicht die Aktivierung der Feldebene, die Taxonomiezuordnung und die Einstellungen für den Mindestkonfidenzschwellenwert auf Extraktorebene.
- Meldet extrahierte Daten auf einheitliche Weise, unabhängig vom Extraktor, der diese bestimmten Daten gemeldet hat.
„Data Extraction Scope“ ermöglicht das Konfigurieren über den Assistenten „Extraktoren konfigurieren“. Sie können Folgendes anpassen:
- welche Felder von jedem Extraktor angefordert werden,
- was der Mindestkonfidenzschwellenwert für einen bestimmten Datenpunktextraktor je nach Klassifizierer ist,
- welche Taxonomiezuordnung auf Feldebene, zwischen der Projekttaxonomie und der internen Taxonomie des Extraktors (falls vorhanden) gilt.
You can mix and match extractors, in a hybrid approach, in which you can request a few fields be extracted by a certain Extractor, while other fields are extracted by a different extractor.
Sie können sogar „Fallback“-Regeln für die Datenextraktion implementieren: Wenn ein bestimmter Extraktor keinen akzeptablen Wert für ein bestimmtes Feld meldet, rufen Sie einen anderen Extraktor auf.
Bitte beachten Sie, dass die Reihenfolge der Extraktoren bei „Data Extraction Scope“ wichtig ist:
- Extraktoren werden mit einer Priorität von links nach rechts ausgeführt;
- Ein extrahierter Wert für ein Feld wird nur akzeptiert, wenn seine Konfidenz größer/gleich dem festgelegten Mindestkonfidenzschwellenwert für diesen Extraktor ist;
- Ein Extraktor wird nur für den bereitgestellten Klassifizierungsseitenbereich und nur für die Felder, die gemäß der Konfiguration von „Data Extraction Scope“ angefordert werden, und für die Felder, die nicht bereits ein akzeptables Ergebnis von früheren Extraktoren erhalten haben, ausgeführt.
Wichtig:
If the Data Extraction Scope does not request any field from a given extractor, then that extractor is not executed. This may be the case of an extractor not configured for a certain incoming document type, or the case of an extractor being used as "fall-back" and the previous extractors reported all expected data already.
Verfügbare Extraktoren
Basierend auf den Anforderungen des Anwendungsfalls können Sie aus mehreren Datenextraktionsalgorithmen, den sogenannten Extraktoren, wählen.
You can use any extractor that is available in the UiPath.IntelligentOCR.Activities or UiPath.DocumentUnderstanding.ML.Activities package.
Die verfügbaren Extraktoren sind:
Sie können jederzeit einen eigenen Extraktor erstellen, indem Sie die öffentlichen „Document Processing Contracts“ verwenden und so jeden Algorithmus implementieren können, der zu Ihrem Anwendungsfall passt.