document-understanding
2020.10
false
UiPath logo, featuring letters U and I in white
Veraltet

Document Understanding-Benutzerhandbuch.

Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
Letzte Aktualisierung 29. Juli 2024

Form Extractor

Was ist Form Extractor

Der Form Extractor ist ein Extraktionsansatz, der sich am besten für Anwendungsfälle eignet, in denen Dokumente mit nicht variablem Format verarbeitet werden müssen, wobei Daten von ihnen extrahiert werden. Also wenn Ihre Dokumente wenig bis gar keine Variation in den Dokumentlayouts aufweisen, ist der Formularextraktor eine gute Wahl.

Der Form Extractor verwendet vorab definierte Vorlagen in der Entwurfsphase und wendet komplexe Regeln an, um die konfigurierten Vorlagen auf eingehende Dokumente anzuwenden, die verarbeitet werden sollen, und identifiziert und meldet so die erwarteten Informationen.

Die Aktivität enthält einen Konfigurationsassistenten, der Sie beim Definieren der Vorlagen für die Dokumenttypen und Felder unterstützt, die Sie auf diese Weise für die Datenextraktion auswählen möchten.

Die Aktivität unterstützt die Extraktion von einfachen Feldern sowie Tabellenfeldern.

Es wird empfohlen, sich mit anderen Extraktionsmethoden zu befassen, wenn:

  • es viele Layouts gibt, die behandelt werden müssen
  • die Dokumente nicht nur geneigt, gedreht oder in unterschiedlichen Größen vorhanden sind, sondern auch „Verzerrungen“ (Krümmungen in bestimmten Bereichen) aufweisen.
    Hinweis:

    Um bei der Extraktion fester Formulare zu evaluieren, ob die Layouts von zwei Dateien identisch sind, legen Sie diese in einem Tool mit ein wenig Transparenz übereinander, um zu überprüfen, ob sich alle nicht variablen Inhalte überschneiden (nach dem Drehen, Neigen und Anpassen der beiden Bilder für den gleichen Maßstab).

    Wenn Sie eine Variabilität bemerken (nichtvariabler Inhalt wird für bestimmte Bereiche des Dokuments weiter links/rechts/oben/unten angezeigt), dann werden die Layouts nicht als identisch erachtet.

    Mit dem Form Extractor können Sie mehrere Vorlagen für den gleichen Dokumenttyp definieren und bei der Ausführung führt er folgende Aktionen aus:

  • Ermittelt die am besten übereinstimmende Vorlage für eingehende Dokumente und Dokumenttypen
  • Wendet den Vorlagenabgleichsalgorithmus mithilfe von Ankern auf Seitenebene für jede Seite an, von der Daten extrahiert werden müssen (fehlende oder sich wiederholende Seiten werden nicht unterstützt).
  • Meldet die identifizierten Informationen aus den Zielwertbereichen.

Er unterstützt auch die Feinabstimmung der Verarbeitung von Kontrollkästchen/booleschen Feldern, indem die Konfiguration von „Synonymen“ für einen „Ja“- oder „Nein“-Wert Ihrem Anwendungsfall entsprechend ermöglicht wird.

Dieser Extraktor verfügt über keine Lernfunktionen (Training) und muss vorab konfiguriert werden.

Spezielle Anforderungen

Sie müssen Ihren Automation Cloud Document Understanding API-Schlüssel verwenden oder Ihre eigene Instanz des Form Extractor im lokalen AI Center hosten, um diesen Extraktor zu verwenden.

Konfigurieren

Aktivitätskonfiguration

Der Form Extractor verfügt über zwei Hauptkonfigurationen, die berücksichtigt werden müssen:

  • Der Vorlagenmanager-Assistent – mit dem Sie Vorlagen definieren können, die auf eingehende Dokumente angewendet werden sollen. Dieser Assistent stellt auch den Vorlageneditor-Assistenten zusammen mit den Einstellungen der booleschen Feldinterpretation zur Verfügung.
  • die MinOverlapPercentage-Einstellung – mit der Sie steuern können, wie streng der Wertbereichsabgleich sein soll. Sie akzeptiert einen Wert zwischen 0 und 100 und steuert, welche Wörter für einen gegebenen Wert akzeptiert oder abgelehnt werden, je nachdem, wie gut die Position in den definierten Bereich der Vorlage passt.

Der Vorlagenmanager-Assistent

Mit diesem Assistenten können Sie Vorlagen für die in der Taxonomie definierten Dokumenttypen erstellen, bearbeiten, verwalten und exportieren/importieren.

Erstellen einer Vorlage

  1. Fügen Sie eine Form Extractor-Aktivität zu Ihrem Workflow in einer Data Extraction Scope-Aktivität hinzu.
  2. Konfigurieren Sie den Extraktor, indem Sie auf die Schaltfläche Vorlagen verwalten klicken.
    • Das Fenster Vorlagenmanager wird geöffnet.


  3. Klicken Sie auf die Schaltfläche Vorlage erstellen zum Erstellen einer neuen Vorlage.


  4. Wählen Sie in der Dropdownliste Dokumenttyp den Dokumenttyp aus, für den Sie die Vorlage definieren.
    Hinweis: Alle Dokumenttypen basieren auf der Taxonomie. Stellen Sie sicher, dass Sie eine Taxonomie im Projektordner hinzugefügt oder erstellt haben.
  5. Fügen Sie den Namen der Vorlage im Feld Vorlagenname hinzu. Stellen Sie sicher, dass der Name widerspiegelt, welche Version des Dokuments oder welches Layout Sie erfassen und konfigurieren.
  6. Fügen Sie den Pfad des Dokuments im Feld Vorlagendokument hinzu.
    • Navigieren Sie mit der Schaltfläche Durchsuchen zum Pfad der Datei.
  7. Wählen Sie ein OCR-Modul von der Dropdownliste OCR-Modul aus und konfigurieren Sie es gemäß den Anforderungen.
  8. Klicken Sie auf die Schaltfläche Konfigurieren, um die Vorlagenbearbeitung auszulösen.

Das OCR-Modul wird nur bei Bedarf angewandt. Wenn es sich bei dem zum Erstellen einer Vorlage ausgewählten Dokument um eine native PDF-Datei handelt, wird kein OCR-Modul ausgeführt.

Jedes OCR-Modul verfügt über eine eigene Reihe benutzerdefinierter Optionen. Hier finden Sie weitere Details zu allen Optionen, die für jedes OCR-Modul verfügbar sind.

Wenn Sie bereits eine Vorlage erstellt haben, kann sie bearbeitet, exportiert oder entfernt werden.

Die Schaltflächen Löschen und Exportieren sind nur verfügbar, wenn mindestens eine Vorlage ausgewählt ist. Die Optionen Bearbeiten und Entfernen für eine einzelne Vorlage sind immer verfügbar.



Konfigurieren der Verarbeitung von booleschen Feldern

Bei den Dokumenten, die Kontrollkästchen enthalten, haben Sie die Möglichkeit, bekannte Synonyme für die Optionen Ja und Nein hinzuzufügen, oder Sie können mit einer von uns zusammengestellten Liste beginnen (siehe die Vorschläge zu Empfehlung hinzufügen). Diese Werte werden für die Boolesche Inhaltsinterpretation verwendet, bei der ein erfasster Wert einem gemeldeten Wert von Yes oder No zugeordnet wird.


Exportieren und Importieren von Vorlagen

Sie können Vorlagen importieren, die von anderen Workflows erstellt und exportiert wurden. Verwenden Sie diese Funktionen, um Vorlagen zwischen Projekten freizugeben, sodass Sie nach der Konfiguration eines Dokumenttyps mit dem Form Extractor die Vorlagen in einer neuen Implementierung nicht noch einmal konfigurieren müssen.

Exportvorgang

Dies sind die Schritte, die Sie ausführen müssen, um eine Vorlage zu exportieren:

  1. Erstellen Sie eine oder mehrere Vorlagen, indem Sie die am Anfang dieser Seite erläuterten Schritte ausführen.
  2. Wählen Sie die Vorlagen aus, die Sie exportieren möchten.
  3. Wählen Sie eine Export-Option (mit oder ohne den Originaldateien) aus, wie im folgenden Screenshot gezeigt. Beim Exportieren mit Originaldateien werden sie an den Export angehängt. Mit der zweiten Option werden die Dateien, die für die Vorlagenerstellung verwendet werden, nicht angehängt.


  4. Speichern Sie das Archiv der Vorlage mit dem gewünschten Namen.
  5. Nach dem Speichern der Vorlage wird eine Meldung angezeigt. Wählen Sie die Schaltfläche OK aus.


    Hinweis:

    Wenn Sie den Inhalt der Dokumente, auf denen Sie Ihre Vorlagen erstellt haben, nicht freigeben können, verwenden Sie die Option „Ohne ursprüngliche Dateien“. Sie werden das Vorlagenarchiv weiterhin freigeben und in andere Projekte importieren können, sie jedoch nicht mehr bearbeiten oder anzeigen können.

    Wenn Sie in der Lage sein möchten, die Vorlagen zu bearbeiten, sobald sie in ein anderes Projekt importiert wurden, verwenden Sie beim Exportieren und Importieren die Option „Mit ursprünglichen Dateien“.

Importvorgang

Hier sind die Schritte, die Sie ausführen müssen, um eine Vorlage zu importieren:

  1. Klicken Sie auf die Schaltfläche Importieren.


  2. Wählen Sie ein Archiv aus. Der Importassistent wird angezeigt und zeigt alle Dokumenttypen und alle Vorlagen an, die im ausgewählten Exportarchiv verfügbar sind. Wählen Sie die Vorlagen aus, die Sie importieren möchten, und wählen Sie die richtige Import-Option (mit oder ohne den ursprünglichen Dateien) aus.


    Hinweis:
    • Beim Importieren von Vorlagen werden Dokumenttypen automatisch in der Taxonomie des Projekts erstellt. Wenn bereits ein Dokumenttyp mit demselben Namen vorhanden ist, wird ein weiterer durch Anhängen einer Zahl an den Dokumenttypnamen erstellt.
    • Wenn Sie Vorlagen importieren, die ohne die ursprünglichen Dateien exportiert wurden, oder wenn Sie Vorlagen ohne die ursprünglichen Dateien importieren, gibt es dafür keine Anzeige- oder Bearbeitungsoptionen.

Spezielle Situationen beim Importieren einer Vorlage

Beim Importieren einer Vorlage können mehrere spezielle Situationen auftreten. Die folgende Tabelle beschreibt jede Situation und ihre Besonderheiten:

Import Type

Verhalten der Aktivität

Neuer Dokumenttyp

Wenn ein neuer Dokumenttyp importiert wird, wird im Assistentenkonfigurator ein neues Feld hinzugefügt, das Sie darüber informiert, dass eine neue Vorlage erstellt werden soll.

Doppelter Dokumenttyp

Wenn ein identischer Dokumenttyp importiert wird, wird die folgende Warnmeldung angezeigt:

  • Diese Vorlage ist bereits vorhanden und wird überschrieben.

Erweiterte Vorlage

Wenn eine Dokumenttypvorlage importiert wird, die zusätzliche Felder als die bereits vorhandene enthält, wird die folgende Warnmeldung angezeigt:

  • Dieser Dokumenttyp wird wie folgt aktualisiert:
  • Die folgenden Felder sind nicht vorhanden und werden erstellt.

Erweiterter Dokumenttyp

Wenn der importierte Dokumenttyp zusätzliche Felder als die bereits vorhandenen enthält, wird die folgende Warnmeldung angezeigt:

  • Dieser Dokumenttyp wird wie folgt aktualisiert:
  • Die folgenden Felder haben keine zu importierenden Konfigurationen…

Dokumenttyp mit identischem Namen, aber unterschiedlichem Inhalt

Wenn der importierte Dokumenttyp denselben Namen, aber verschiedene Felder hat wie der vorhandene, wird die folgende Warnmeldung angezeigt:

  • Dieser Dokumenttyp wird wie folgt aktualisiert:
  • Die folgenden Felder sind nicht vorhanden und werden erstellt:
  • Die folgenden Felder haben keine zu importierenden Konfigurationen

Dokumenttyp mit fehlender Tabelle

Wenn der importierte Dokumenttyp keine Tabelle enthält, wird die folgende Warnmeldung angezeigt:

  • Dieser Dokumenttyp wird wie folgt aktualisiert:
  • Die folgenden Felder haben keine zu importierenden Konfigurationen.

Dokumenttyp mit erweiterter Tabelle

Wenn der importierte Dokumenttyp eine Tabelle mit zusätzlichen Spalten enthält, wird die folgende Warnmeldung angezeigt:

  • Dieses Dokument wird wie folgt geändert:
  • Die folgenden Felder sind nicht vorhanden und werden erstellt.

Dokumenttyp mit reduzierter Tabelle

Wenn der importierte Dokumenttyp eine Tabelle mit fehlenden Spalten enthält, wird die folgende Warnmeldung angezeigt:

  • Dieses Dokument wird wie folgt geändert:
  • Die folgenden Felder haben keine zu importierenden Konfigurationen…

Tabellenvorlage mit unterschiedlichen Dokumenttypen

Wenn die importierte Dokumenttypvorlage eine Tabelle mit unterschiedlichen Dokumenttypen enthält, wird eine neue Vorlage erstellt.

Wenn Ihre Taxonomie eine Tabelle mit einem Feld mit einem anderen Dokumenttyp enthält, wird die folgende Meldung angezeigt:

  • Das Feld mit der ID xyz wurde sowohl in der importierten Taxonomie als auch in der vorhandenen Taxonomie gefunden, ihre Typen sind jedoch inkompatibel (beide müssen Tabellen oder keine Tabellen sein).

Der Vorlageneditor

Allgemeine Überlegungen

Der Vorlageneditor baut auf die Funktionalität der Validation Station auf.

Weitere Informationen zur grundlegenden Verwendung der Validation Station finden Sie hier.

Konfigurieren von Ankern auf Seitenebene

Beim Definieren oder Bearbeiten einer Vorlage muss zuerst die Auswahl von Seite 1 – Abgleichsinformationen für eine Festform-Vorlagendefinition durchgeführt werden.

Dieses Feld, das auf der linken Seite des Bildschirms als das erste Feld angezeigt wird, muss mit Wörtern (nur Tokens werden akzeptiert) von der ersten Seite der Vorlage konfiguriert werden, die sich ständig an der gleichen Position im jeweiligen Vorlagenlayout befinden, das ein eindeutiges Diagramm aus Wörtern (unter Berücksichtigung relativer Abstände und Winkel zwischen Wörtern) in allen Vorlagen bildet, die für einen bestimmten Dokumenttyp definiert sind. Seite 1 – Abgleichsinformationen (und alle anderen Felder mit Seitenabgleichsinformationen) sind also „Fingerabdrücke“ einer bestimmten Seite und werden umfassend zur Identifizierung der richtigen Vorlage bei der Ausführung verwendet.

Deshalb wird für das Feld Seite 1 – Abgleichsinformationen dringend empfohlen, 10 bis 20 Wörter, vorzugsweise länger, verteilt auf den gesamten Seitenbereich auszuwählen, die ein eindeutiges Muster über alle definierten Vorlagen für diesen Dokumenttyp bilden.

Die anderen Felder mit Seitenabgleichsinformationen (eines für jede Vorlagenseite) müssen nur ausgefüllt werden, wenn Sie die Extraktion von Daten aus dieser bestimmten Seite versuchen und keine vorlagenübergreifende Eindeutigkeit mehr erforderlich ist. Wenn keine Felder von einer bestimmten Seite extrahiert werden müssen, ist die Definition der Übereinstimmungsinformationen auf Seitenebene für diese Seite nicht erforderlich.

Konfigurieren von einfachen Feldern

Für alle Felder außer Tabellen besteht das Konfigurieren der Vorlage darin, einen Benutzerdefinierten Bereich auszuwählen und ihn einem bestimmten Feld zuzuweisen.

Bei Festformkonfigurationen können Datenfelder nur mit der Auswahl von Benutzerdefinierten Bereichen konfiguriert werden.

Für ein beliebiges Feld können Sie einen oder mehrere dieser Benutzerdefinierten Bereiche mithilfe der Schaltfläche (+) definieren. Wenn Sie zwei oder mehr benutzerdefinierte Bereiche für ein einzelnes Feld definieren und das Feld in der Taxonomie als Einzelwertdefiniert ist, dann werden bei der Ausführung alle Werte von allen benutzerdefinierten Bereichen in einen einzelnen gemeldeten Wert verkettet. Wenn das Feld hingegen als Mehrfachwert definiert ist, wird jeder Wert von jedem benutzerdefinierten Bereich einzeln gemeldet.

Die folgende Animation zeigt den Unterschied zwischen der Auswahl von Token oder Benutzerdefiniertem Bereich:



Sie können auch den Typ der akzeptierten Auswahl für jedes Feld herausfinden, indem Sie das Symbol neben jedem Feld überprüfen, wie in der folgenden Animation zu sehen ist:



Hinweis:

Wenn ein leerer Bereich ausgewählt wird, wird die Auswahl automatisch als Benutzerdefinierter Bereich festgelegt. Wenn Text im ausgewählten Bereich erkannt wird, werden Sie aufgefordert, den Typ der Auswahl zwischen Token oder Benutzerdefiniertem Bereich auszuwählen.

Verwenden Sie die „Auswahlmodus“-Funktion von Validation Station, um Ihre Auswahl zwischen Token und Benutzerdefinierten Bereichen zu sperren.

Konfigurieren von Tabellen

Wie oben erwähnt, gibt es Felder, in denen Informationen nur mithilfe von Tokens (z. B. Seite – Abgleichsinformationen-Felder) oder nur mithilfe eines benutzerdefinierten Bereichs (z. B. einfache Felder) hinzugefügt werden können. Bei Tabellen-Feldern haben Sie folgende Möglichkeiten:

  • Jede Zelle einzeln definieren, sobald der Tabellen-Editor erweitert wurde – indem Sie jeder Zelle einzeln die Auswahl eines Benutzerdefinierten Bereichs hinzufügen oder
  • Die Tabellenmarkierungsfunktion verwenden – indem Sie den Tabellenbereich markieren, Zeilen- und Spaltentrennzeichen festlegen und dann dem Feld die markierte Tabelle zuweisen.

In der folgenden Animation sehen Sie, wie Sie die Tabellenmarkierungsfunktion verwenden:



  • Was ist Form Extractor
  • Spezielle Anforderungen
  • Konfigurieren
  • Aktivitätskonfiguration
  • Der Vorlagenmanager-Assistent
  • Der Vorlageneditor

War diese Seite hilfreich?

Hilfe erhalten
RPA lernen – Automatisierungskurse
UiPath Community-Forum
Uipath Logo White
Vertrauen und Sicherheit
© 2005–2024 UiPath. Alle Rechte vorbehalten