Document Understanding-Benutzerhandbuch.

BEREITSTELLUNG:

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

Letzte Aktualisierung 11. Nov. 2024

Form Extractor

Was ist Form Extractor

Der Form Extractor eignet sich am besten zum Extrahieren, Abgleichen und Melden bestimmter Informationen, indem er die Position des Wortes innerhalb des Dokuments analysiert oder eine Signatur erkennt.

Der Form Extractor verwendet vorab definierte Vorlagen in der Entwurfsphase. Mit einem komplexen Satz von Regeln werden die konfigurierten Vorlagen auf eingehende Dokumente angewendet, die verarbeitet werden sollen, wodurch die erwarteten Informationen identifiziert und gemeldet werden.

Die Aktivität enthält einen Konfigurationsassistenten, der Sie beim Definieren der Vorlagen für die Dokumenttypen und Felder unterstützt, die Sie für die Datenextraktion auswählen möchten.

Die Aktivität unterstützt sowohl die einfache Feld- als auch die Tabellenfeldextraktion und kann, wie bereits erwähnt, ein Signaturfeld erkennen.

Hinweis:

Weitere Informationen zum Form Extractor:

Aktivitätsseite Form Extractor
Taxonomiemanager – Setup-Anweisungen
Vorlagenmanager-Assistent – Setup-Anweisungen
Ankerbasierter Workflow (Beispiel)

Es wird empfohlen, sich mit anderen Extraktionsmethoden zu befassen, wenn:

es viele Layouts gibt, die behandelt werden müssen
die Dokumente nicht nur geneigt, gedreht oder in unterschiedlichen Größen vorhanden sind, sondern auch „Verzerrungen“ (Krümmungen in bestimmten Bereichen) aufweisen.

Hinweis:
Um bei der Extraktion fester Formulare zu evaluieren, ob die Layouts von zwei Dateien identisch sind, legen Sie diese in einem Tool mit ein wenig Transparenz übereinander, um zu überprüfen, ob sich alle nicht variablen Inhalte überschneiden (nach dem Drehen, Neigen und Anpassen der beiden Bilder an den gleichen Maßstab).

Wenn Sie eine Variabilität bemerken (nichtvariabler Inhalt wird für bestimmte Bereiche des Dokuments weiter links/rechts/oben/unten angezeigt), dann werden die Layouts nicht als identisch erachtet.

Mit dem Form Extractor können Sie mehrere Vorlagen für den gleichen Dokumenttyp definieren und bei der Ausführung führt er folgende Aktionen aus:
Ermittelt die am besten übereinstimmende Vorlage für eingehende Dokumente und Dokumenttypen
wendet den Vorlagenabgleichsalgorithmus mithilfe von Ankern auf Seitenebene für jede Seite an, von der Daten extrahiert werden müssen (fehlende oder sich wiederholende Seiten werden nicht unterstützt)
wendet alle Ankereinstellungen auf Feldebene auf die einzelnen Seiten an, um Werte zu erfassen, die zu potenziellen Treffern passen
Meldet die identifizierten Informationen aus den Zielwertbereichen.

Er unterstützt auch die Feinabstimmung der Verarbeitung von Kontrollkästchen/booleschen Feldern, indem die Konfiguration der Werte „Synonyme für Ja“ bzw. „Synonyme für Nein“ Ihrem Anwendungsfall entsprechend ermöglicht wird.

Dieser Extraktor verfügt über keine Lernfunktionen (Training) und muss konfiguriert werden.

Konfigurieren

Aktivitätskonfiguration

Der Form Extractor verfügt über zwei Hauptkonfigurationen, die berücksichtigt werden müssen:

Der Vorlagenmanager-Assistent – mit dem Sie Vorlagen definieren können, die auf eingehende Dokumente angewendet werden sollen. Dieser Assistent stellt die Einstellungen für den Vorlageneditor und die Booleschen Feldinterpretation zur Verfügung.
Die MindestüberlappungInProzent-Einstellung – mit der Sie steuern können, wie streng der Wertbereichsabgleich sein soll. Akzeptiert einen Wert zwischen 0 und 100 und steuert, welche Wörter für einen Wert akzeptiert oder abgelehnt werden, je nachdem, wie gut die Position in den definierten Bereich der Vorlage passt.

Weitere Informationen zur Verwendung des Aktivitätsassistenten Form Extractor finden Sie hier.

Auf dieser Seite