Übersicht über die Datenextraktion

Was ist Datenextraktion

Die Datenextraktion ist eine Komponente im Document Understanding-Framework, mit der Sie sehr spezifische für Sie relevante Informationen aus Ihren Dokumenttypen identifizieren können.

Die Informationen, die das Ziel der Datenextraktion sein können, werden in der Projekt-Taxonomie als Liste aus Feldern für einen bestimmten Dokumenttyp definiert. Ein Feld, das nicht in der Taxonomie Ihres Projekts angezeigt wird, kann nicht für die automatische Datenextraktion konfiguriert werden.

Der Datenextraktionsschritt des Document Understanding-Framework stellt sicher, dass die konfigurierten Extraktoren in der richtigen Reihenfolge für die richtige Liste aus Feldern für den richtigen Seitenbereich der zu verarbeitenden Datei aufgerufen werden. Wenn also in der gleichen Datei zwei oder mehr Dokumenttypen identifiziert werden (für verschiedene Seitenbereiche), wird empfohlen, dass der Datenextraktionsschritt mehrmals ausgeführt wird, einmal für jedes Klassifizierungsergebnis. Das Ausführen der Datenextraktion für ein Klassifizierungsergebnis mit einem bestimmten Seitenbereich stellt sicher, dass die Daten für die Extraktion nur von diesen Seiten und nur für diesen Dokumenttyp angepeilt werden.

Wie die Datenextraktionskomponente verwendet wird

Die Datenextraktion erfolgt über die Aktivität Data Extraction Scope. Um Daten von Dokumenten zu extrahieren, können Sie einen oder mehrere Extraktoren verwenden, da die Scope-Aktivität die Aufgabe hat, einen oder mehrere Algorithmen für die Dokumentextrahierung zu konfigurieren und auszuführen und eine einfache, einheitliche Konfigurationsoption für alle Anforderungen zu bieten.

Kurz gesagt führt Data Extraction Scope die folgenden Aktionen aus:

Stellt allen Extraktoren (Extraktionsalgorithmen) die erforderlichen Konfigurationen und Eingaben zur Verfügung, damit sie ausgeführt werden können.
Akzeptiert einen oder mehrere Extraktoren.
Ermöglicht die Aktivierung der Feldebene, die Taxonomiezuordnung und die Einstellungen für den Mindestkonfidenzschwellenwert auf Extraktorebene.
Meldet extrahierte Daten auf einheitliche Weise, unabhängig vom Extraktor, der diese bestimmten Daten gemeldet hat.

„Data Classifiers Scope“ ermöglicht das Konfigurieren über den Assistenten „Extraktoren konfigurieren“. Sie können anpassen,

welche Felder von jedem Extraktor angefordert werden,
was der Mindestkonfidenzschwellenwert für einen bestimmten Datenpunktextraktor je nach Klassifizierer ist,
welche Taxonomiezuordnung auf Feldebene, zwischen der Projekttaxonomie und der internen Taxonomie des Extraktors (falls vorhanden) gilt.

Sie können Extraktoren beliebig kombinieren, indem Sie einen hybriden Ansatz verwenden, bei dem Sie anfordern können, dass einige Felder von einem bestimmten Extraktor extrahiert werden, während andere Felder von einem anderen Extraktor extrahiert werden.

Sie können sogar „Fallback“-Regeln für die Datenextraktion implementieren: Wenn ein bestimmter Extraktor keinen akzeptablen Wert für ein bestimmtes Feld meldet, rufen Sie einen anderen Extraktor auf.

Bitte beachten Sie, dass die Reihenfolge der Extraktoren bei „Data Extraction Scope“ wichtig ist:

Extraktoren werden mit einer Priorität von links nach rechts ausgeführt;
Ein extrahierter Wert für ein Feld wird nur akzeptiert, wenn seine Konfidenz größer/gleich dem festgelegten Mindestkonfidenzschwellenwert für diesen Extraktor ist;
Ein Extraktor wird nur für den bereitgestellten Klassifizierungsseitenbereich und nur für die Felder, die gemäß der Konfiguration von „Data Extraction Scope“ angefordert werden, und für die Felder, die nicht bereits ein akzeptables Ergebnis von früheren Extraktoren erhalten haben, ausgeführt.
Wichtig: Wenn Data Extraction Scope kein Feld von einem bestimmten Extraktor anfordert, wird dieser Extraktor nicht ausgeführt. Dies kann vorkommen, wenn ein Extraktor nicht für einen bestimmten eingehenden Dokumenttyp konfiguriert ist oder wenn ein Extraktor als „Fallback“ verwendet wird und die vorherigen Extraktoren bereits alle erwarteten Daten gemeldet haben.

Verfügbare Extraktoren

Basierend auf den Anforderungen des Anwendungsfalls können Sie aus mehreren Datenextraktionsalgorithmen, den sogenannten Extraktoren, wählen.

Sie können jeden Extraktor verwenden, der in den UiPath.IntelligentOCR.Activities-Paketen oder in anderen Paketen von UiPath (UiPath.DocumentUnderstanding.ML.Activities) oder Drittanbietern (UiPath.Abbyy.Activities) verfügbar ist.

Die verfügbaren Extraktoren sind:

Sie können jederzeit einen eigenen Extraktor erstellen, indem Sie die öffentlichen „Document Processing Contracts“ verwenden und so jeden Algorithmus implementieren können, der zu Ihrem Anwendungsfall passt.

Auf dieser Seite