Datenextraktionsumfang

UiPath.IntelligentOCR.Activities.DataExtraction.DataExtractionScope

Stellt einen Bereich für Extraktionsaktivitäten zur Verfügung, mit dem Sie diese entsprechend den in Ihrer Taxonomie definierten Dokumenttypen konfigurieren können. Die Ausgabe der Aktivität ist in einer ExtractionResult-Variablen gespeichert, die alle automatisch extrahierten Daten enthält und als Eingabe für die Aktivität Extraktionsergebnisse exportieren (Export Extraction Results) verwendet werden kann. Diese Aktivität bietet überdies einen Assistenten zum Konfigurieren von Extraktionen, mit dem Sie genau angeben können, welche Felder aus den in der Taxonomie definierten Dokumenttypen Sie genau extrahieren möchten.

Eigenschaften

Allgemein

AnzeigeName (DisplayName) - Der Anzeigename der Aktivität.

Eingabe

ApplyGenerativeValidation (Vorschau) – Passen Sie die Konfidenz mithilfe der Gegenprüfung der generativen Extraktion an. Die Konfidenzen für gemeldete Werte, die durch Generative AI bestätigt werden, wird auf 99 % erhöht. Das Aktivieren dieser Funktion in der öffentlichen Vorschau führt zu keinem zusätzlichen Verbrauch von AI Units. Ein zusätzlicher Verbrauch kann anfallen, sobald die Funktion allgemein verfügbar ist. Aktuelle Informationen finden Sie in unseren Versionshinweisen.
Klassifizierungsergebnisse – Die Ergebnisse der Ausführung der Klassifizierungsaktivität, gespeichert in einem ClassificationResult-Objekt. Dieses Feld ist optional, wenn Sie stattdessen eine DokumenttypID angeben. Dieses Feld unterstützt nur ClassificationResult-Variablen.
Dokumentobjektmodell – Das Dokumentobjektmodell, gegen das Sie das Dokument validieren möchten. Dieses Modell ist in einer Document-Variablen gespeichert und kann mit der Aktivität Digitize Document abgerufen werden. Ausführliche Informationen hierüber siehe Dokumentation der Aktivität. Dieses Feld unterstützt nur Document-Variablen.
Dokumentpfad (DocumentPath) - Der Pfad zu dem Dokument, das Sie validieren möchten. Dieses Feld unterstützt nur Strings und Variablen des Typs String.

Hinweis: Die unterstützten Dateitypen für dieses Eigenschaftsfeld sind .png, .gif, .jpe, .jpg, .jpeg, .tiff, .tif, .bmp und .pdf.
Dokumenttext (DocumentText) - Der Text des Dokuments, gespeichert in einer String-Variablen. Dieser Wert kann mit der Aktivität Dokument digitalisieren (Digitize Document) abgerufen werden. Ausführliche Informationen hierüber siehe Dokumentation der Aktivität. Dieses Feld unterstützt nur Strings und String-Variablen.
Dokumenttyp-ID (DocumentTypeID) - Die in der Taxonomieverwaltung zu findende Dokumenttyp-ID. Dieses Feld ist optional, wenn Sie stattdessen eine Datei im Feld Klassifizierungsergebnisse (Classification Results) angeben. Dieses Feld unterstützt nur Zeichenfolgen und String-Variablen.
FormatWerteWennMöglich – Gibt an, dass ein Wert, der abgeleitete Teile gemeldet hat, nicht vom Datenextraktionsbereich überschrieben wird. Wenn er aber keine abgeleiteten Teile hat, versucht der Datenextraktionsbereich, sie zu berechnen. Wenn die Option auf False festgelegt ist, werden die Werte nicht formatiert.
GenerativeValidationConfidenceThreshold (Vorschau) – Konfidenzschwellenwert für die generative Validierung. Nur Feldwerte mit Konfidenz unter diesem Schwellenwert werden validiert. Wenn Werte bestätigt werden, wird die Konfidenz dieser Werte auf diesen Schwellenwert festgelegt.
Taxonomie – Die Taxonomie, gegen die das Dokument verarbeitet werden soll, gespeichert in einer DocumentTaxonomy-Variablen. Dieses Objekt können Sie durch eine Aktivität Load Taxonomy erhalten. Dieses Feld unterstützt nur DocumentTaxonomy-Variablen.

Sonstiges

Privat (Private) - Bei Auswahl werden die Werte von Variablen und Argumenten nicht mehr auf der Stufe Verbose protokolliert.

Ausgabe

Extraktionsergebnisse – Die Extraktionsergebnisse des Datenextraktionsprozesses, gespeichert in einer ExtractionResult-Variablen.

Hinweis: Wenn der Seitenbereich für die Datenextraktion angibt, dass nur ein Teil der Originaldatei als Ziel verwendet wird, generiert der Datenextraktionsbereich eine Datei im Projektordner TEMP , die dann an die Extraktoren übergeben wird. Die temporäre Datei enthält nur den Seitenbereich, den Extraktoren für die Dokumentverarbeitung erhalten sollen.

Verwenden des Assistenten zum Konfigurieren des Extraktors

Mit dem Assistenten Extraktoren konfigurieren, auf den Sie über Data Extraction Scope zugreifen können, können Sie auswählen, welche Extraktoren auf jeden Dokumenttyp und jedes Feld angewendet werden.

Klicken Sie im Hauptteil der Aktivität auf die Schaltfläche Extraktoren konfigurieren klicken. Die Schaltfläche für den Assistenten wird verfügbar, nachdem Sie mindestens eine Extraktoraktivität in den Hauptteil der Aktivität Data Extraction Scope gezogen haben. Dieser Assistent zeigt alle in der Taxonomie definierten Dokumenttypen und ihre jeweiligen Felder an und ermöglicht Ihnen, auszuwählen, welchen Extraktor Sie jeweils verwenden möchten.

Jeder Dokumenttyp kann erweitert werden und seine Felder können im Assistenten angezeigt und zum Extrahieren ausgewählt werden.

Das Feld Framework-Alias kann verwendet werden, um einen Extraktor einem oder mehreren Trainern zuzuordnen. Sie können z. B. einem Machine Learning Extractor das Alias R2D2 geben und dann dasselbe Alias für einen Machine Learning Extractor Trainer verwenden. Dadurch wird eine Verbindung zwischen dem Extraktor und dem Trainer erstellt. Es dient für Trainingszwecke für den Extraktor. Jeder Extraktor hat ein eindeutiges Alias, während mehrere Trainer dasselbe Alias haben können.

Das Feld Mindestkonfidenz kann mit einem Wert zwischen 0 und 100 konfiguriert werden und stellt einen Konfidenz-Schwellenwert dar, oberhalb dessen extrahierte Daten berücksichtigt werden. Wenn ein Ergebnis eines ausgewählten Felds ein Konfidenzniveau unter dem Konfidenzschwellenwert hat, wird es im endgültigen Ergebnis nicht gemeldet.

Klicken Sie für die Extraktoren, die diese Funktionalität unterstützen, auf die Schaltfläche Extraktor-Funktionen abrufen oder aktualisieren. So können Sie Ihre Taxonomiefelder einfach den verfügbaren Extraktorfeldern zuordnen oder sie aktualisieren, falls sich die Extraktorfelder geändert haben.

Wenn die Kontrollkästchen neben jedem Feld in einer beliebigen Spalte aktiviert sind, fordert Data Extractor Scope dieses bestimmte Feld vom Extraktor an. Wenn das Kontrollkästchen deaktiviert ist, fordert Data Extractor Scope keinen Wert für dieses Feld vom Extraktor an.

Texteingaben neben jedem Feld ermöglichen Ihnen, in Ihrer Taxonomie definierte Felder etwaigen in der internen Taxonomie des Extraktors definierten Feldern zuzuordnen. Fügen Sie für reguläre Felder in der Texteingabe den Bezeichner für das Zielfeld aus der internen Taxonomie des Extraktors hinzu. Bei Tabellenfeldern wird das übergeordnete Tabellenfeld auf Tabellenebene zugeordnet und die entsprechenden Spalten werden einzeln zugeordnet.

Hinweis: Wenn Sie den Machine Learning Extractor in einem Setup mit definierten Spaltenfeldern verwenden, können diese einem Tabellenfeld aus Ihrer Taxonomie zugeordnet werden. Sie werden unter einer Sammlung namens Elemente angezeigt.

Die Anzahl der Spalten im Assistenten hängt von der Anzahl der Extraktoren in der Scope-Aktivität ab. Der Name jeder Spalte wird durch den Anzeigenamen jeder Extraktoraktivität angegeben.

Wenn mehrere Extraktoren in der Aktivität verwendet werden, definiert die Reihenfolge der Extraktoren im Scope ihre Priorität. Wenn Extraktor 1 beispielsweise in der obigen Abbildung einen akzeptablen Wert (über der Mindestkonfidenz) für ein bestimmtes angefordertes Feld zurückgibt, wird dieses Feld nicht angefordert, wenn Extraktor 2 und Extraktor 3 ausgeführt werden. Wenn Extraktor 1 und Extraktor 2 Werte unterhalb der Mindestkonfidenz für das bestimmte Feld zurückgeben oder überhaupt nichts zurückgeben, werden die Ergebnisse von Extraktor 3 berücksichtigt, sofern sie die Bedingungen für die Konfidenzakzeptanz erfüllen.

Document Understanding-Integration

Die Aktivität Data Extraction Scope ist Teil der Document Understanding-Lösungen. Weitere Informationen finden Sie im Document Understanding-Leitfaden.

Auf dieser Seite