Form Extractor

Was ist Form Extractor

Der Form Extractor ist ein Extraktionsansatz, der sich am besten für Anwendungsfälle eignet, in denen Dokumente mit nicht variablem Format verarbeitet werden müssen, wobei Daten von ihnen extrahiert werden. Also wenn Ihre Dokumente wenig bis gar keine Variation in den Dokumentlayouts aufweisen, ist der Form Extractor eine gute Wahl.

Der Form Extractor verwendet vorab definierte Vorlagen in der Entwurfsphase. Mit einem komplexen Satz von Regeln werden die konfigurierten Vorlagen auf eingehende Dokumente angewendet, die verarbeitet werden sollen, wodurch die erwarteten Informationen identifiziert und gemeldet werden.

Sie können diese Aktivität für die Handschrifterkennung und Handschriftdatenextraktion oder Unterschrifterkennung verwenden. Durch diese Funktionen eignet sich Form Extractor sehr gut zum Verarbeiten von gedruckten oder handschriftlichen Formularen oder zum Überprüfen, ob ein Formular unterschrieben ist oder nicht.

Die Aktivität enthält einen Konfigurationsassistenten, der Sie beim Definieren der Vorlagen für die Dokumenttypen und Felder unterstützt, die Sie für die Datenextraktion auswählen möchten.

Die Aktivität unterstützt die Extraktion von einfachen Feldern sowie Tabellenfeldern.

Es wird empfohlen, sich mit anderen Extraktionsmethoden zu befassen, wenn:

es viele Layouts gibt, die behandelt werden müssen
die Dokumente nicht nur geneigt, gedreht oder in unterschiedlichen Größen vorhanden sind, sondern auch „Verzerrungen“ (Krümmungen in bestimmten Bereichen) aufweisen.
Hinweis:
Um bei der Extraktion fester Formulare zu evaluieren, ob die Layouts von zwei Dateien identisch sind, legen Sie diese in einem Tool mit ein wenig Transparenz übereinander, um zu überprüfen, ob sich alle nicht variablen Inhalte überschneiden (nach dem Drehen, Neigen und Anpassen der beiden Bilder an den gleichen Maßstab).

Wenn Sie eine Variabilität bemerken (nichtvariabler Inhalt wird für bestimmte Bereiche des Dokuments weiter links/rechts/oben/unten angezeigt), dann werden die Layouts nicht als identisch erachtet.

Mit dem Form Extractor können Sie mehrere Vorlagen für den gleichen Dokumenttyp definieren und bei der Ausführung führt er folgende Aktionen aus:
Ermittelt die am besten übereinstimmende Vorlage für eingehende Dokumente und Dokumenttypen
wendet den Vorlagenabgleichsalgorithmus mithilfe von Ankern auf Seitenebene für jede Seite an, von der Daten extrahiert werden müssen (fehlende oder sich wiederholende Seiten werden nicht unterstützt)
wendet alle Ankereinstellungen auf Feldebene auf die einzelnen Seiten an, um Werte zu erfassen, die zu potenziellen Treffern passen
Meldet die identifizierten Informationen aus den Zielwertbereichen.

Er unterstützt auch die Feinabstimmung der Verarbeitung von Kontrollkästchen/booleschen Feldern, indem die Konfiguration der Werte „Synonyme für Ja“ bzw. „Synonyme für Nein“ Ihrem Anwendungsfall entsprechend ermöglicht wird.

Dieser Extraktor verfügt über keine Lernfunktionen (Training) und muss konfiguriert werden.

Spezielle Anforderungen

Sie müssen Ihren Automation Cloud Document Understanding-API-Schlüssel verwenden oder Ihre eigene Instanz des Form Extractor im lokalen AI Center hosten, um diesen Extraktor zu verwenden.

Die Ankerfunktion ist jetzt im Vorlageneditor verfügbar, sodass Sie ankerbasierte Regeln für die Datenextraktion für einfache Felder aus einem festen Dokumenttyp definieren können. Hier finden Sie weitere Informationen zur Verwendung und Konfiguration von Ankern.

Auf dieser Seite