- Erste Schritte
- Framework-Komponenten
- Übersicht zur Dokumentklassifizierung
- „Klassifizierer konfigurieren“-Assistent von Classify Document Scope
- Schlüsselwortbasierte Classifier (Keyword Based Classifier)
- Intelligenter Schlüsselwortklassifizierer
- FlexiCapture Classifier
- Machine Learning Classifier
- Dokumentklassifizierung – verwandte Aktivitäten
- ML-Pakete
- Pipelines
- Data Manager
- OCR-Dienste
- Document Understanding – in der Automation Suite bereitgestellt
- Document Understanding – im eigenständigen AI Center bereitgestellt
- Deep Learning
- Lizenzierung
- Referenzen
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Aktivitäten (UiPath.IntelligentOCR.Activities)
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.Omnipage.Activities
- UiPath.PDF.Aktivitäten (UiPath.PDF.Activities)
Document Understanding-Benutzerhandbuch.
Extraktor für intelligente Formulare
Der Intelligent Form Extractor ist ein spezielles Tool zur Verarbeitung von Dokumenten mit festem Layout für die Datenextraktion, das auf dem Form Extractor aufbaut und zusätzliche Funktionen hinzufügt, z. B.
- Handschrifterkennung und Extraktion von handschriftlichen Daten,
- Signaturerkennung.
Durch die zusätzlichen Funktionen vom Intelligent Form Extractor im Vergleich zum Form Extractor eignet er sich sehr gut für die Verarbeitung aller Arten von Formularen, die
- gedruckt ODER handschriftlich sein können,
- die Überprüfung erfordern können, ob das Formular signiert ist oder nicht.
Diese beiden Zusatzfunktionen können zusätzlich zu den bereits im Form Extractor vorhandenen Konfigurationen über den Vorlagenmanager-Assistenten der Aktivität konfiguriert werden.
Dieser Extraktor verfügt über keine Lernfunktionen (Training) und muss vorab konfiguriert werden.
Weitere Informationen zum Intelligent Form Extractor:
- Intelligent Form Extractor – Aktivitätsseite
- Taxonomiemanager – Setup-Anweisungen
- Vorlagenmanager-Assistent – Setup-Anweisungen
- Ankerbasierter Workflow (Beispiel)
Sie müssen Ihren Automation Cloud Document Understanding-API-Schlüssel verwenden oder Ihre eigene Instanz des Intelligent Form Extractor im lokalen AI Center hosten, um diesen Extraktor zu verwenden.
Der Intelligent Based Extractor verfügt über zwei Hauptkonfigurationen, die berücksichtigt werden müssen:
- Der Vorlagenmanager-Assistent – mit dem Sie Vorlagen definieren können, die auf eingehende Dokumente angewendet werden sollen. Dieser Assistent stellt die Einstellungen für den Vorlageneditor und die Booleschen Feldinterpretation zur Verfügung.
- Die MindestüberlappungInProzent-Einstellung – mit der Sie steuern können, wie streng der Wertbereichsabgleich sein soll. Akzeptiert einen Wert zwischen
0
und100
und steuert, welche Wörter für einen Wert akzeptiert oder abgelehnt werden, je nachdem, wie gut die Position in den definierten Bereich der Vorlage passt.
Damit können Sie Vorlagen für die in der Taxonomie definierten Dokumenttypen erstellen, bearbeiten, verwalten und exportieren/importieren.
Erstellen einer Vorlage
- Fügen Sie eine Intelligent Form Extractor-Aktivität zu Ihrem Workflow in einem Data Extraction Scope hinzu.
- Konfigurieren Sie den Extraktor, indem Sie auf die Schaltfläche Vorlagen verwalten klicken.
- Das Fenster Vorlagenmanager wird geöffnet.
- Das Fenster Vorlagenmanager wird geöffnet.
- Klicken Sie auf die Schaltfläche Vorlage erstellen zum Erstellen einer neuen Vorlage.
- Wählen Sie den Dokumenttyp für Ihre Vorlage aus der Dropdownliste Dokumenttyp aus.
Hinweis: Alle Dokumenttypen basieren auf der Taxonomie. Stellen Sie sicher, dass Sie eine Taxonomie im Projektordner hinzugefügt oder erstellt haben.
- Fügen Sie den Namen der Vorlage im Feld Vorlagenname hinzu. Wählen Sie einen passenden Namen für die Version oder das Layout Ihres Dokuments.
- Fügen Sie den Pfad des Dokuments im Feld Vorlagendokument hinzu.
- Navigieren Sie mit der Schaltfläche Durchsuchen zum Pfad der Datei.
- Wählen Sie ein OCR-Modul von der Dropdownliste OCR-Module OCR-Modul aus und konfigurieren Sie es gemäß den Anforderungen.
- Klicken Sie auf die Schaltfläche Konfigurieren, um die Vorlagenbearbeitung auszulösen.
Das OCR-Modul wird nur bei Bedarf angewandt. Wenn es sich bei dem zum Erstellen einer Vorlage ausgewählten Dokument um eine native PDF-Datei handelt, wird kein OCR-Modul ausgeführt, außer die Option OCR-Anwendung erzwingen ist aktiviert. Wenn diese Option aktiviert ist, wird die OCR auch auf eine native PDF-Datei angewendet.
Jedes OCR-Modul verfügt über eine eigene Reihe benutzerdefinierter Optionen. Hier finden Sie weitere Details zu allen Optionen, die für jedes OCR-Modul verfügbar sind.
Wenn Sie bereits eine Vorlage erstellt haben, kann sie bearbeitet, exportiert oder entfernt werden.
Die Schaltflächen Löschen und Exportieren sind nur verfügbar, wenn mindestens eine Vorlage ausgewählt ist. Die Optionen Bearbeiten und Entfernen für eine einzelne Vorlage sind immer verfügbar.
Konfigurieren der Verarbeitung von booleschen Feldern
Bei den Dokumenten, die Kontrollkästchen enthalten, haben Sie die Möglichkeit, bekannte Synonyme für die Optionen Yes (Ja) und No (Nein) hinzuzufügen, oder Sie können mit einer von uns zusammengestellten Liste beginnen (siehe die Vorschläge zu Empfehlung hinzufügen). Diese Werte werden für die Boolesche Inhaltsinterpretation verwendet, bei der ein erfasster Wert einem gemeldeten Wert Yes (Ja) oder No (Nein) zugeordnet wird.
Exportieren und Importieren von Vorlagen
Sie können Vorlagen importieren, die von anderen Workflows erstellt und exportiert wurden. Verwenden Sie diese Funktionen, um Vorlagen zwischen Projekten freizugeben. Sobald ein Dokumenttyp mit dem Intelligent Form Extractor konfiguriert wurde, müssen Sie die Vorlagen in einer neuen Implementierung nicht noch einmal konfigurieren.
Exportvorgang
Dies sind die Schritte, die Sie ausführen müssen, um eine Vorlage zu exportieren:
- Erstellen Sie eine oder mehrere Vorlagen, indem Sie die am Anfang dieser Seite erläuterten Schritte ausführen.
- Wählen Sie die Vorlagen aus, die Sie exportieren möchten.
- Wählen Sie eine Export-Option (mit oder ohne den Originaldateien) aus, wie im folgenden Screenshot gezeigt. Beim Exportieren mit Originaldateien werden sie an den Export angehängt.
- Speichern Sie das Archiv der Vorlage mit dem gewünschten Namen.
- Nach dem Speichern der Vorlage wird eine Meldung angezeigt. Wählen Sie die Schaltfläche OK aus.
Hinweis:
Wenn Sie den Inhalt der Dokumente, auf denen Sie Ihre Vorlagen erstellt haben, nicht freigeben können, verwenden Sie die Option „Ohne ursprüngliche Dateien“. Sie werden das Vorlagenarchiv weiterhin freigeben und in andere Projekte importieren können, sie jedoch nicht mehr bearbeiten oder anzeigen können.
Wenn Sie die Vorlagen bearbeiten möchten, sobald sie in ein anderes Projekt importiert wurden, verwenden Sie beim Exportieren und Importieren die Option „Mit ursprünglichen Dateien“.
Importvorgang
Hier sind die Schritte, die Sie ausführen müssen, um eine Vorlage zu importieren:
- Klicken Sie auf die Schaltfläche Importieren.
- Wählen Sie ein Archiv aus. Der Importassistent wird angezeigt und zeigt alle Dokumenttypen und alle Vorlagen an, die im ausgewählten Exportarchiv verfügbar sind. Wählen Sie die Vorlagen aus, die Sie importieren möchten, und wählen Sie die richtige Import-Option (mit oder ohne den ursprünglichen Dateien) aus.
Hinweis:
- Beim Importieren von Vorlagen werden Dokumenttypen automatisch in der Taxonomie des Projekts erstellt. Wenn bereits ein Dokumenttyp mit demselben Namen vorhanden ist, wird ein weiterer durch Anhängen einer Zahl an den Dokumenttypnamen erstellt.
- Wenn Sie Vorlagen importieren, die ohne die ursprünglichen Dateien exportiert wurden, oder wenn Sie Vorlagen ohne die ursprünglichen Dateien importieren, gibt es dafür keine Anzeige- oder Bearbeitungsoptionen.
Spezielle Situationen beim Importieren einer Vorlage
Beim Importieren einer Vorlage können mehrere spezielle Situationen auftreten. Die folgende Tabelle beschreibt jede Situation und ihre Besonderheiten:
Import Type |
Verhalten der Aktivität |
---|---|
Neuer Dokumenttyp |
Wenn ein neuer Dokumenttyp importiert wird, wird im Assistentenkonfigurator ein neues Feld hinzugefügt, das Sie darüber informiert, dass eine neue Vorlage erstellt werden soll. |
Doppelter Dokumenttyp |
Wenn ein identischer Dokumenttyp importiert wird, wird die folgende Warnmeldung angezeigt:
|
Erweiterte Vorlage |
Wenn eine Dokumenttypvorlage importiert wird, die zusätzliche Felder im Vergleich zur bereits vorhandenen enthält, wird die folgende Warnmeldung angezeigt:
|
Erweiterter Dokumenttyp |
Wenn der importierte Dokumenttyp zusätzliche Felder als die bereits vorhandenen enthält, wird die folgende Warnmeldung angezeigt:
|
Dokumenttyp mit identischem Namen, aber unterschiedlichem Inhalt |
Wenn der importierte Dokumenttyp denselben Namen, aber verschiedene Felder hat wie der vorhandene, wird die folgende Warnmeldung angezeigt:
|
Dokumenttyp mit fehlender Tabelle |
Wenn der importierte Dokumenttyp keine Tabelle enthält, wird die folgende Warnmeldung angezeigt:
|
Dokumenttyp mit erweiterter Tabelle |
Wenn der importierte Dokumenttyp eine Tabelle mit zusätzlichen Spalten enthält, wird die folgende Warnmeldung angezeigt:
|
Dokumenttyp mit reduzierter Tabelle |
Wenn der importierte Dokumenttyp eine Tabelle mit fehlenden Spalten enthält, wird die folgende Warnmeldung angezeigt:
|
Tabellenvorlage mit unterschiedlichen Dokumenttypen |
Wenn die importierte Dokumenttypvorlage eine Tabelle mit unterschiedlichen Dokumenttypen enthält, wird eine neue Vorlage erstellt. Wenn Ihre Taxonomie eine Tabelle mit einem Feld mit einem anderen Dokumenttyp enthält, wird die folgende Meldung angezeigt:
|
Allgemeine Überlegungen
Der Vorlageneditor baut auf die Funktionalität der Validation Station auf. Greifen Sie darauf zu, indem Sie auf klicken einer Vorlage.
Weitere Informationen zur grundlegenden Verwendung der Validation Station finden Sie in diesem Abschnitt.
Neben den Optionen, die im rechten Teil der Anzeige der Validation Station verfügbar sind, gibt es zwei Optionen speziell für den Vorlageneditor:
Option |
Beschreibung |
---|---|
|
Legt den Ankerauswahlmodus fest |
|
Löscht die gesamte Ankerauswahl |
Beim Erstellen einer neuen Vorlage wird beim ersten Öffnen des Vorlageneditors ein Erklärungstext angezeigt. Anhand folgender Schritte lässt sich der Text erneut anzeigen:
Konfigurieren von Ankern
Anker können definiert werden, sobald der Vorlageneditor über den Vorlagenmanager geöffnet wurde und sind unter den Optionen zum Auswahlmodus zu finden.
Beim Definieren oder Bearbeiten einer Vorlage auf Seitenebene (optional), muss zuerst die Auswahl von Seite 1 – Abgleichsinformationen durchgeführt werden. Dieser Schritt ist nur für feste Formvorlagen obligatorisch.
Die Auswahl zu Seite 1 – Abgleichsinformationen befindet sich auf der linken Seite des Bildschirms. Sie erfordert eine Texteingabe (tokens only are accepted (nur Token werden akzeptiert)) auf der ersten Seite der Vorlage, die sich immer an der gleichen Position innerhalb des jeweiligen Vorlagenlayouts befindet und ein eindeutiges Wort-Diagramm in alle Vorlagen bildet, die für einen bestimmten Dokumenttyp definiert sind (unter Berücksichtigung relativer Abstände und Winkel zwischen Wörtern).
Seite 1 – Abgleichsinformationen (und alle anderen Felder mit Seitenabgleichsinformationen) sind also „Fingerabdrücke“ einer bestimmten Seite und werden umfassend zur Identifizierung der richtigen Vorlage bei der Laufzeit verwendet.
Deshalb wird für das Feld Seite 1 – Abgleichsinformationen dringend empfohlen, 10 bis 20 Wörter auszuwählen, vorzugsweise länger, verteilt auf den gesamten Seitenbereich.
Die anderen Felder mit Seitenabgleichsinformationen (eines für jede Vorlagenseite) müssen nur ausgefüllt werden, wenn Sie die Extraktion von Daten aus dieser bestimmten Seite versuchen und keine vorlagenübergreifende Eindeutigkeit mehr erforderlich ist. Wenn keine Felder von einer bestimmten Seite extrahiert werden müssen, ist die Definition der Abgleichsinformationen auf Seitenebene für diese Seite nicht erforderlich.
Konfigurieren von einfachen Feldern
Für alle Felder außer Tabellen besteht das Konfigurieren der Vorlage darin, einen Benutzerdefinierten Bereich auszuwählen und ihn einem bestimmten Feld zuzuweisen.
Bei festen Formkonfigurationen können Datenfelder nur mit der Auswahl eines Benutzerdefinierten Bereichs konfiguriert werden.
Für ein beliebiges Feld können Sie einen oder mehrere dieser Benutzerdefinierten Bereiche mithilfe der Schaltfläche (+) definieren. Wenn zwei oder mehr benutzerdefinierte Bereiche für ein einzelnes Feld definiert sind (dann zur Runtime) und wenn das Feld in der Taxonomie als Einzelwert definiert ist, werden alle Werte in einen einzelnen gemeldeten Wert verkettet. Wenn das Feld als Mehrfachwert definiert ist, wird jeder Wert einzeln gemeldet.
Die folgende Animation zeigt den Unterschied zwischen der Auswahl von Token und einem Benutzerdefiniertem Bereich:
Das Symbol neben jedem Feld gibt den Typ der unterstützten Auswahl an:
Wenn ein leerer Bereich ausgewählt wird, wird die Auswahl automatisch als Benutzerdefinierter Bereich festgelegt. Wenn Text im ausgewählten Bereich erkannt wird, werden Sie aufgefordert, den Typ der Auswahl zwischen Token oder Benutzerdefiniertem Bereich auszuwählen.
Anhand des Auswahlmodus der Validation Station können Sie Ihre Auswahl zwischen Token und benutzerdefinierten Bereichen sperren.
Konfigurieren von Tabellen
Wie oben erwähnt, gibt es Felder, in denen Informationen nur mithilfe von Token (z. B. die Felder Seite – Abgleichsinformationen) oder nur mit einem benutzerdefinierten Bereich (z. B. einfache Felder) hinzugefügt werden können. Bei Tabellenfeldern können Sie:
- jede Zelle einzeln definieren, sobald der Tabellen-Editor erweitert wurde – indem Sie jeder Zelle einzeln die Auswahl eines Benutzerdefinierten Bereichs hinzufügen oder
- die Tabellenmarkierungsfunktion verwenden – indem Sie den Tabellenbereich markieren, Zeilen- und Spaltentrennzeichen festlegen und dann dem Feld die markierte Tabelle zuweisen. Stellen Sie sicher, dass der extrahierte Bereich die gleiche Anzahl von Spalten und Zeilen wie der Vorlagenbereich hat.
In der folgenden Animation sehen Sie, wie Sie die Tabellenmarkierungsfunktion verwenden:
Eine Methode zum Definieren der Grenzen eines benutzerdefinierten Bereichs, aus dem Daten extrahiert werden sollen, ist die Verwendung von Ankern auf Feldebene. Diese ermöglichen eine gezielte Datenextraktion basierend auf Konfigurationen auf Feldebene und ermöglichen so mehr Flexibilität beim Definieren Ihrer Formularextraktionsregeln.
Daher weiß der Intelligent Form Extractor zur Runtime wie er:
- die Übereinstimmung einer Vorlage auf Seitenebene ermittelt und Informationen entsprechend der besten übereinstimmenden Vorlage auf Seitenebene extrahiert
- die Übereinstimmung ankerbasierter Einstellungen ermittelt und Informationen entsprechend ihrer Anwendung im zu verarbeitenden Dokument extrahiert
- entsprechende Konfidenzwerte für alle möglichen Übereinstimmungen berechnet, um das beste Ergebnis (höchste Wahrscheinlichkeit der Übereinstimmung) aller verfügbaren Optionen melden zu können.
Erstellen einer neuen Ankereinstellung
- Stellen Sie sicher, dass Sie sich im Ankerauswahlmodus befinden.
- Zeichnen Sie ein Feld um den Wertbereich.
- Wählen Sie eine Beschriftung (Hauptanker) für den Wertbereich aus, indem Sie entweder auf das erste Wort klicken und dann gleichzeitig die Strg-Taste drücken und das letzte Wort der Auswahl anklicken, oder erfassen Sie einen Wortbereich durch Klicken, Ziehen und Freigeben.
Hinweis: Eine Beschriftung darf nur aufeinanderfolgende Wörter aus derselben visuellen Zeile enthalten.
- Wählen Sie alle zusätzlichen Anker aus, die Ihre Beschriftung eindeutig identifizieren würden. Es gilt dasselbe Auswahlprinzip.
- Weisen Sie Ihr Ankerkonstrukt dem entsprechenden Feld zu, indem Sie Wert extrahieren für dieses bestimmte Feld auswählen.
Hinweis: Sie können auch anhand des Beispiels hier erfahren, wie Sie eine Vorlage erstellen und Extraktionsbereiche und Anker definieren.
Eine vorhandene Ankereinstellung bearbeiten
- Markieren Sie Ihre Ankereinstellung.
- Nehmen Sie Änderungen daran vor (löschen Sie nach Bedarf alle Anker, die Beschriftung, oder den Wertbereich, fügen Sie neue Elemente hinzu usw.).
- Verwenden Sie die Option Extrahierten Wert ändern, um die Feldzuordnung anzupassen.
Hinweis:- Wenn Sie den Zielbereich löschen, werden alle Anker gelöscht und Sie beginnen von vorne.
- Wenn Sie die Beschriftung (Hauptanker) löschen, wird der erste Anker aus der Erstellreihenfolge zur neuen Beschriftung.
Bearbeiten einer vorhandenen Ankereinstellung
Möglichkeiten zum Löschen einer Ankereinstellung:
- Optionen Als fehlend markieren für einen gespeicherten Wert verwenden
- Wert entfernen im Falle einer Liste von Ankern verwenden, die für ein bestimmtes Feld definiert sind
Konfigurationen kombinieren und abgleichen
Für denselben Dokumenttyp können Sie beliebig viele Vorlagen definieren. Sie können mehrere Vorlagen auf Seitenebene, mehrere Anker für dasselbe Feld und auch Vorlagen haben, die Anker auf Seiten- und Feldebene enthalten.
- Stellen Sie beim Definieren von Ankern auf Feldebene sicher, dass Sich Ihre Beschriftung in der Nähe Ihres Wertbereichs befindet und sie von zusätzlichen Ankern unterstützt wird, wenn dasselbe Textkonstrukt an mehreren Stellen innerhalb desselben Dokuments zu finden ist.
- Je länger Ihre Beschriftungen und Anker sind, desto mehr Genauigkeit erhalten Sie.
- Der Wertbereich wird immer basierend auf seiner relativen Position gegenüber Ihrer Beschriftung (Hauptanker) berechnet. Wählen Sie Ihre Hauptanker entsprechend aus.
- Mit Ankern auf Feldebene können Felder innerhalb der Vorlage verschoben und trotzdem erfasst werden, was mehr Flexibilität bei Änderungen des Dokumentlayouts bietet.