- Erste Schritte
- Framework-Komponenten
- Document Understanding im AI Center
- Pipelines
- ML-Pakete
- Data Manager
- OCR-Dienste
- Lizenzierung
- Referenzen
Document Understanding-Benutzerhandbuch.
Form Extractor
Der Form Extractor ist ein Extraktionsansatz, der sich am besten für Anwendungsfälle eignet, in denen Dokumente mit nicht variablem Format verarbeitet werden müssen, wobei Daten von ihnen extrahiert werden. Also wenn Ihre Dokumente wenig bis gar keine Variation in den Dokumentlayouts aufweisen, ist der Formularextraktor eine gute Wahl.
Der Form Extractor verwendet vorab definierte Vorlagen in der Entwurfsphase und wendet komplexe Regeln an, um die konfigurierten Vorlagen auf eingehende Dokumente anzuwenden, die verarbeitet werden sollen, und identifiziert und meldet so die erwarteten Informationen.
Die Aktivität enthält einen Konfigurationsassistenten, der Sie beim Definieren der Vorlagen für die Dokumenttypen und Felder unterstützt, die Sie auf diese Weise für die Datenextraktion auswählen möchten.
Die Aktivität unterstützt die Extraktion von einfachen Feldern sowie Tabellenfeldern.
Es wird empfohlen, sich mit anderen Extraktionsmethoden zu befassen, wenn:
- es viele Layouts gibt, die behandelt werden müssen
- die Dokumente nicht nur geneigt, gedreht oder in unterschiedlichen Größen vorhanden sind, sondern auch „Verzerrungen“ (Krümmungen in bestimmten Bereichen) aufweisen.
Hinweis:
Um bei der Extraktion fester Formulare zu evaluieren, ob die Layouts von zwei Dateien identisch sind, legen Sie diese in einem Tool mit ein wenig Transparenz übereinander, um zu überprüfen, ob sich alle nicht variablen Inhalte überschneiden (nach dem Drehen, Neigen und Anpassen der beiden Bilder für den gleichen Maßstab).
Wenn Sie eine Variabilität bemerken (nichtvariabler Inhalt wird für bestimmte Bereiche des Dokuments weiter links/rechts/oben/unten angezeigt), dann werden die Layouts nicht als identisch erachtet.
Mit dem Form Extractor können Sie mehrere Vorlagen für den gleichen Dokumenttyp definieren und bei der Ausführung führt er folgende Aktionen aus:
- Ermittelt die am besten übereinstimmende Vorlage für eingehende Dokumente und Dokumenttypen
- Wendet den Vorlagenabgleichsalgorithmus mithilfe von Ankern auf Seitenebene für jede Seite an, von der Daten extrahiert werden müssen (fehlende oder sich wiederholende Seiten werden nicht unterstützt).
- Meldet die identifizierten Informationen aus den Zielwertbereichen.
Er unterstützt auch die Feinabstimmung der Verarbeitung von Kontrollkästchen/booleschen Feldern, indem die Konfiguration von „Synonymen“ für einen „Ja“- oder „Nein“-Wert Ihrem Anwendungsfall entsprechend ermöglicht wird.
Dieser Extraktor verfügt über keine Lernfunktionen (Training) und muss vorab konfiguriert werden.
Sie müssen Ihren Automation Cloud Document Understanding API-Schlüssel verwenden oder Ihre eigene Instanz des Form Extractor im lokalen AI Center hosten, um diesen Extraktor zu verwenden.
Der Form Extractor verfügt über zwei Hauptkonfigurationen, die berücksichtigt werden müssen:
- Der Vorlagenmanager-Assistent – mit dem Sie Vorlagen definieren können, die auf eingehende Dokumente angewendet werden sollen. Dieser Assistent stellt auch den Vorlageneditor-Assistenten zusammen mit den Einstellungen der booleschen Feldinterpretation zur Verfügung.
- die MinOverlapPercentage-Einstellung – mit der Sie steuern können, wie streng der Wertbereichsabgleich sein soll. Sie akzeptiert einen Wert zwischen 0 und 100 und steuert, welche Wörter für einen gegebenen Wert akzeptiert oder abgelehnt werden, je nachdem, wie gut die Position in den definierten Bereich der Vorlage passt.
Mit diesem Assistenten können Sie Vorlagen für die in der Taxonomie definierten Dokumenttypen erstellen, bearbeiten, verwalten und exportieren/importieren.
Erstellen einer Vorlage
- Fügen Sie eine Form Extractor-Aktivität zu Ihrem Workflow in einer Data Extraction Scope-Aktivität hinzu.
- Konfigurieren Sie den Extraktor, indem Sie auf die Schaltfläche Vorlagen verwalten klicken.
- Das Fenster Vorlagenmanager wird geöffnet.
- Das Fenster Vorlagenmanager wird geöffnet.
- Klicken Sie auf die Schaltfläche Vorlage erstellen zum Erstellen einer neuen Vorlage.
- Wählen Sie in der Dropdownliste Dokumenttyp den Dokumenttyp aus, für den Sie die Vorlage definieren.
Hinweis: Alle Dokumenttypen basieren auf der Taxonomie. Stellen Sie sicher, dass Sie eine Taxonomie im Projektordner hinzugefügt oder erstellt haben.
- Fügen Sie den Namen der Vorlage im Feld Vorlagenname hinzu. Stellen Sie sicher, dass der Name widerspiegelt, welche Version des Dokuments oder welches Layout Sie erfassen und konfigurieren.
- Fügen Sie den Pfad des Dokuments im Feld Vorlagendokument hinzu.
- Navigieren Sie mit der Schaltfläche Durchsuchen zum Pfad der Datei.
- Wählen Sie ein OCR-Modul von der Dropdownliste OCR-Modul aus und konfigurieren Sie es gemäß den Anforderungen.
- Klicken Sie auf die Schaltfläche Konfigurieren, um die Vorlagenbearbeitung auszulösen.
Das OCR-Modul wird nur bei Bedarf angewandt. Wenn es sich bei dem zum Erstellen einer Vorlage ausgewählten Dokument um eine native PDF-Datei handelt, wird kein OCR-Modul ausgeführt.
Jedes OCR-Modul verfügt über eine eigene Reihe benutzerdefinierter Optionen. Hier finden Sie weitere Details zu allen Optionen, die für jedes OCR-Modul verfügbar sind.
Wenn Sie bereits eine Vorlage erstellt haben, kann sie bearbeitet, exportiert oder entfernt werden.
Die Schaltflächen Löschen und Exportieren sind nur verfügbar, wenn mindestens eine Vorlage ausgewählt ist. Die Optionen Bearbeiten und Entfernen für eine einzelne Vorlage sind immer verfügbar.
Konfigurieren der Verarbeitung von booleschen Feldern
Yes
oder No
zugeordnet wird.
Exportieren und Importieren von Vorlagen
Sie können Vorlagen importieren, die von anderen Workflows erstellt und exportiert wurden. Verwenden Sie diese Funktionen, um Vorlagen zwischen Projekten freizugeben, sodass Sie nach der Konfiguration eines Dokumenttyps mit dem Form Extractor die Vorlagen in einer neuen Implementierung nicht noch einmal konfigurieren müssen.
Exportvorgang
Dies sind die Schritte, die Sie ausführen müssen, um eine Vorlage zu exportieren:
- Erstellen Sie eine oder mehrere Vorlagen, indem Sie die am Anfang dieser Seite erläuterten Schritte ausführen.
- Wählen Sie die Vorlagen aus, die Sie exportieren möchten.
- Wählen Sie eine Export-Option (mit oder ohne den Originaldateien) aus, wie im folgenden Screenshot gezeigt. Beim Exportieren mit Originaldateien werden sie an den Export angehängt. Mit der zweiten Option werden die Dateien, die für die Vorlagenerstellung verwendet werden, nicht angehängt.
- Speichern Sie das Archiv der Vorlage mit dem gewünschten Namen.
- Nach dem Speichern der Vorlage wird eine Meldung angezeigt. Wählen Sie die Schaltfläche OK aus.
Hinweis:Wenn Sie den Inhalt der Dokumente, auf denen Sie Ihre Vorlagen erstellt haben, nicht freigeben können, verwenden Sie die Option „Ohne ursprüngliche Dateien“. Sie werden das Vorlagenarchiv weiterhin freigeben und in andere Projekte importieren können, sie jedoch nicht mehr bearbeiten oder anzeigen können.
Wenn Sie in der Lage sein möchten, die Vorlagen zu bearbeiten, sobald sie in ein anderes Projekt importiert wurden, verwenden Sie beim Exportieren und Importieren die Option „Mit ursprünglichen Dateien“.
Importvorgang
Hier sind die Schritte, die Sie ausführen müssen, um eine Vorlage zu importieren:
- Klicken Sie auf die Schaltfläche Importieren.
- Wählen Sie ein Archiv aus. Der Importassistent wird angezeigt und zeigt alle Dokumenttypen und alle Vorlagen an, die im ausgewählten Exportarchiv verfügbar sind. Wählen Sie die Vorlagen aus, die Sie importieren möchten, und wählen Sie die richtige Import-Option (mit oder ohne den ursprünglichen Dateien) aus.
Hinweis:- Beim Importieren von Vorlagen werden Dokumenttypen automatisch in der Taxonomie des Projekts erstellt. Wenn bereits ein Dokumenttyp mit demselben Namen vorhanden ist, wird ein weiterer durch Anhängen einer Zahl an den Dokumenttypnamen erstellt.
- Wenn Sie Vorlagen importieren, die ohne die ursprünglichen Dateien exportiert wurden, oder wenn Sie Vorlagen ohne die ursprünglichen Dateien importieren, gibt es dafür keine Anzeige- oder Bearbeitungsoptionen.
Spezielle Situationen beim Importieren einer Vorlage
Beim Importieren einer Vorlage können mehrere spezielle Situationen auftreten. Die folgende Tabelle beschreibt jede Situation und ihre Besonderheiten:
Import Type |
Verhalten der Aktivität |
---|---|
Neuer Dokumenttyp |
Wenn ein neuer Dokumenttyp importiert wird, wird im Assistentenkonfigurator ein neues Feld hinzugefügt, das Sie darüber informiert, dass eine neue Vorlage erstellt werden soll. |
Doppelter Dokumenttyp |
Wenn ein identischer Dokumenttyp importiert wird, wird die folgende Warnmeldung angezeigt:
|
Erweiterte Vorlage |
Wenn eine Dokumenttypvorlage importiert wird, die zusätzliche Felder als die bereits vorhandene enthält, wird die folgende Warnmeldung angezeigt:
|
Erweiterter Dokumenttyp |
Wenn der importierte Dokumenttyp zusätzliche Felder als die bereits vorhandenen enthält, wird die folgende Warnmeldung angezeigt:
|
Dokumenttyp mit identischem Namen, aber unterschiedlichem Inhalt |
Wenn der importierte Dokumenttyp denselben Namen, aber verschiedene Felder hat wie der vorhandene, wird die folgende Warnmeldung angezeigt:
|
Dokumenttyp mit fehlender Tabelle |
Wenn der importierte Dokumenttyp keine Tabelle enthält, wird die folgende Warnmeldung angezeigt:
|
Dokumenttyp mit erweiterter Tabelle |
Wenn der importierte Dokumenttyp eine Tabelle mit zusätzlichen Spalten enthält, wird die folgende Warnmeldung angezeigt:
|
Dokumenttyp mit reduzierter Tabelle |
Wenn der importierte Dokumenttyp eine Tabelle mit fehlenden Spalten enthält, wird die folgende Warnmeldung angezeigt:
|
Tabellenvorlage mit unterschiedlichen Dokumenttypen |
Wenn die importierte Dokumenttypvorlage eine Tabelle mit unterschiedlichen Dokumenttypen enthält, wird eine neue Vorlage erstellt. Wenn Ihre Taxonomie eine Tabelle mit einem Feld mit einem anderen Dokumenttyp enthält, wird die folgende Meldung angezeigt:
|
Allgemeine Überlegungen
Der Vorlageneditor baut auf die Funktionalität der Validation Station auf.
Weitere Informationen zur grundlegenden Verwendung der Validation Station finden Sie hier.
Konfigurieren von Ankern auf Seitenebene
Beim Definieren oder Bearbeiten einer Vorlage muss zuerst die Auswahl von Seite 1 – Abgleichsinformationen für eine Festform-Vorlagendefinition durchgeführt werden.
Dieses Feld, das auf der linken Seite des Bildschirms als das erste Feld angezeigt wird, muss mit Wörtern (nur Tokens werden akzeptiert) von der ersten Seite der Vorlage konfiguriert werden, die sich ständig an der gleichen Position im jeweiligen Vorlagenlayout befinden, das ein eindeutiges Diagramm aus Wörtern (unter Berücksichtigung relativer Abstände und Winkel zwischen Wörtern) in allen Vorlagen bildet, die für einen bestimmten Dokumenttyp definiert sind. Seite 1 – Abgleichsinformationen (und alle anderen Felder mit Seitenabgleichsinformationen) sind also „Fingerabdrücke“ einer bestimmten Seite und werden umfassend zur Identifizierung der richtigen Vorlage bei der Ausführung verwendet.
Deshalb wird für das Feld Seite 1 – Abgleichsinformationen dringend empfohlen, 10 bis 20 Wörter, vorzugsweise länger, verteilt auf den gesamten Seitenbereich auszuwählen, die ein eindeutiges Muster über alle definierten Vorlagen für diesen Dokumenttyp bilden.
Die anderen Felder mit Seitenabgleichsinformationen (eines für jede Vorlagenseite) müssen nur ausgefüllt werden, wenn Sie die Extraktion von Daten aus dieser bestimmten Seite versuchen und keine vorlagenübergreifende Eindeutigkeit mehr erforderlich ist. Wenn keine Felder von einer bestimmten Seite extrahiert werden müssen, ist die Definition der Übereinstimmungsinformationen auf Seitenebene für diese Seite nicht erforderlich.
Konfigurieren von einfachen Feldern
Für alle Felder außer Tabellen besteht das Konfigurieren der Vorlage darin, einen Benutzerdefinierten Bereich auszuwählen und ihn einem bestimmten Feld zuzuweisen.
Bei Festformkonfigurationen können Datenfelder nur mit der Auswahl von Benutzerdefinierten Bereichen konfiguriert werden.
Für ein beliebiges Feld können Sie einen oder mehrere dieser Benutzerdefinierten Bereiche mithilfe der Schaltfläche (+) definieren. Wenn Sie zwei oder mehr benutzerdefinierte Bereiche für ein einzelnes Feld definieren und das Feld in der Taxonomie als Einzelwertdefiniert ist, dann werden bei der Ausführung alle Werte von allen benutzerdefinierten Bereichen in einen einzelnen gemeldeten Wert verkettet. Wenn das Feld hingegen als Mehrfachwert definiert ist, wird jeder Wert von jedem benutzerdefinierten Bereich einzeln gemeldet.
Die folgende Animation zeigt den Unterschied zwischen der Auswahl von Token oder Benutzerdefiniertem Bereich:
Sie können auch den Typ der akzeptierten Auswahl für jedes Feld herausfinden, indem Sie das Symbol neben jedem Feld überprüfen, wie in der folgenden Animation zu sehen ist:
Wenn ein leerer Bereich ausgewählt wird, wird die Auswahl automatisch als Benutzerdefinierter Bereich festgelegt. Wenn Text im ausgewählten Bereich erkannt wird, werden Sie aufgefordert, den Typ der Auswahl zwischen Token oder Benutzerdefiniertem Bereich auszuwählen.
Verwenden Sie die „Auswahlmodus“-Funktion von Validation Station, um Ihre Auswahl zwischen Token und Benutzerdefinierten Bereichen zu sperren.
Konfigurieren von Tabellen
Wie oben erwähnt, gibt es Felder, in denen Informationen nur mithilfe von Tokens (z. B. Seite – Abgleichsinformationen-Felder) oder nur mithilfe eines benutzerdefinierten Bereichs (z. B. einfache Felder) hinzugefügt werden können. Bei Tabellen-Feldern haben Sie folgende Möglichkeiten:
- Jede Zelle einzeln definieren, sobald der Tabellen-Editor erweitert wurde – indem Sie jeder Zelle einzeln die Auswahl eines Benutzerdefinierten Bereichs hinzufügen oder
- Die Tabellenmarkierungsfunktion verwenden – indem Sie den Tabellenbereich markieren, Zeilen- und Spaltentrennzeichen festlegen und dann dem Feld die markierte Tabelle zuweisen.
In der folgenden Animation sehen Sie, wie Sie die Tabellenmarkierungsfunktion verwenden: