activities
latest
false
Wichtig :
Bitte beachten Sie, dass dieser Inhalt teilweise mithilfe von maschineller Übersetzung lokalisiert wurde.
Document Understanding-Aktivitäten
Last updated 29. Okt. 2024

Ankerbasierte Datenextraktion mit Intelligent Form Extractor

Im folgenden Beispiel wird erläutert, wie Daten aus einem Formular extrahiert werden, das auch handgeschriebenen Text enthalten kann. Im folgenden Anwendungsszenario wird erläutert, wie Daten aus einer Bestellung extrahiert werden.

Gezeigt werden Aktivitäten wie Digitize Document, Data Extraction Scopeoder Intelligent Form Extractor. Diese Aktivitäten finden Sie im Paket UiPath.IntelligentOCR.Activities .

Erstellen des Workflows

Die folgenden Pakete müssen installiert werden, bevor der folgende Workflow erstellt werden kann:

  • UiPath.DocumentProcessing.Contracts.Activities
  • UiPath.IntelligentOCR.Aktivitäten (UiPath.IntelligentOCR.Activities)
  • UiPath.OCR.Activities
  • UiPath.OCR.Contracts
  • UiPath.WebApi.Activities

Steps:

  1. Öffnen Sie Studio und erstellen Sie einen neuen Prozess.
  2. Fügen Sie einen Sequence-Container im Workflow Designer hinzu, nennen Sie ihn Sequence1, und erstellen Sie die in der folgenden Tabelle angezeigten Variablen:
    Tabelle 1. Zu erstellende Variablen

    Variablenname

    Variablentyp

    Standardwert

    item

    String

    Keine Angabe

    classificationResult

    ClassificationResult[]

    Keine Angabe

    outputFileName

    GenericValue

    Keine Angabe
  3. Fügen Sie einen weiteren Sequence-Container im Workflow Designer hinzu, nennen Sie ihn Sequence2, und erstellen Sie die in der folgenden Tabelle angezeigten Variablen:
    Tabelle 2. Zu erstellende Variablen

    Variablenname

    Variablentyp

    Standardwert

    text

    String

    Keine Angabe

    taxonomy

    DocumentTaxonomy

    Keine Angabe

    dom

    Document

    Keine Angabe

    documentPath

    String

    Keine Angabe

    classificationResult2

    ClassificationResult[]

    Keine Angabe

    outputFileName2

    GenericValue

    Keine Angabe
  4. Fügen Sie eine Message Box -Aktivität innerhalb der Sequence hinzu.
    • Wählen Sie im Panel Eigenschaften die Option Ok aus der Dropdownliste Schaltflächen aus. Fügen Sie die folgende Meldung im Feld Text hinzu: „Wählen Sie eine PDF-Datei aus“.
  5. Aktivieren Sie das Kontrollkästchen für die Option Oberste. Dadurch wird die „Message Box“ in den Vordergrund gebracht.
  6. Fügen Sie eine Select File-Aktivität nach der Message Box-Aktivität hinzu.
    • Fügen Sie im Eigenschaftenbereich den folgenden Text in das Feld Filter ein: Pdf files (*.pdf)|*.pdf
    • Fügen Sie die Variable documentPath im Feld SelectedFile hinzu.
  7. Fügen Sie eine Assign-Aktivität nach der Select File-Aktivität hinzu.
    • Fügen Sie die Variable outputFileName2 im Feld An hinzu.
    • Fügen Sie den Ausdruck ".temp/" + Path.GetFileName(documentPath) in das Feld Wert ein.
  8. Fügen Sie eine Deserialize JSON-Aktivität nach der Assign-Aktivität hinzu.
    • Fügen Sie den Ausdruck File.ReadAllText("DocumentProcessing axonomy.json") in das Feld JSON-String ein.
    • Wählen Sie im Panel Eigenschaften die Option UiPath.DocumentProcessing.Contracts.Taxonomy.DocumentTaxonomy aus der Dropdownliste TypeArgument aus.
    • Fügen Sie die Variable taxonomy in das Feld JSONObjekt ein.
  9. Fügen Sie eine Digitize Document-Aktivität nach der Deserialize JSON-Aktivität hinzu.
    • Fügen Sie im Eigenschaftenbereich den Wert 1 in das Feld Parallelitätsgrad ein.
    • Fügen Sie die Variable documentPath im Feld DocumentPath hinzu.
    • Fügen Sie die Variable dom im Feld Dokumentobjektmodell hinzu.
    • Fügen Sie die Variable text im Feld Dokumenttext hinzu.
    • Fügen Sie das UiPath® Document OCR -Modul innerhalb der Aktivität hinzu.
    • Fügen Sie Ihren API-Schlüssel im Feld ApiKey hinzu .
    • Fügen Sie den Ausdruck "https://du.uipath.com/ocr" im Feld Endpunkt hinzu .
  10. Fügen Sie eine Write Text File-Aktivität nach der Digitize Document-Aktivität hinzu.
    • Fügen Sie den Ausdruck JsonConvert.SerializeObject(dom) in das Feld Text ein.
    • Fügen Sie den Ausdruck outputFileName2 + ".dom.json" in das Feld Dateiname ein.
  11. Fügen Sie eine weitere Write Text File-Aktivität nach der Write Text File-Aktivität hinzu.
    • Fügen Sie die Variable text in das Feld Text ein.
    • Fügen Sie den Ausdruck outputFileName2 + ".text.txt" in das Feld Dateiname ein.
  12. Fügen Sie einen weiteren Sequence-Container im Workflow Designer hinzu, nennen Sie ihn Sequence3, und erstellen Sie die in der folgenden Tabelle angezeigten Variablen:
    Tabelle 3. Zu erstellende Variablen

    Variablenname

    Variablentyp

    Standardwert

    extractionResult

    Extraktionsergebnis

    Keine Angabe

    validatedResults

    Extraktionsergebnis

    Keine Angabe

    doubleValidatedResults

    Extraktionsergebnis

    Keine Angabe

    dataset

    Dataset

    Keine Angabe

    i

    Int32

    Keine Angabe
  13. Fügen Sie eine Data Extraction Scope- Aktivität innerhalb der Sequence3 hinzu.
    • Fügen Sie im Panel Eigenschaften die Variable dom im Feld DocumentObjectModel hinzu.
    • Fügen Sie die Variable documentPath im Feld DocumentPath hinzu.
    • Fügen Sie die Variable text im Feld Dokumenttext hinzu.
    • Fügen Sie den Ausdruck "All.Benchmarks.Invoice" im Feld DocumentTypeId hinzu.
    • Fügen Sie die Variable taxonomy im Feld Taxonomie hinzu.
    • Fügen Sie die Variable extractionResult im Feld ExtractionResults hinzu.
  14. Fügen Sie eine Intelligent Form Extractor -Aktivität innerhalb der Aktivität „ Data Extraction Scope “ hinzu.
    • Fügen Sie Ihren API-Schlüssel im Feld APISchlüssel hinzu.
  15. Fügen Sie eine Write Text File-Aktivität nach der Aktivität Data Extraction Scope hinzu.
    • Fügen Sie den Ausdruck JsonConvert.SerializeObject(extractionResult) in das Feld Text ein.
    • Fügen Sie den Ausdruck outputFileName2 + ".results.json" in das Feld Dateiname ein.
  16. Fügen Sie eine Present Validation Station-Aktivität nach der Write Text File-Aktivität hinzu.
    • Fügen Sie die Variable extractionResult im Feld AutomatischeExtraktionsergebnisse hinzu.
    • Fügen Sie die Variable dom im Feld Dokumentobjektmodell hinzu.
    • Fügen Sie die Variable documentPath im Feld DocumentPath hinzu.
    • Fügen Sie die Variable text im Feld Dokumenttext hinzu.
    • Fügen Sie die Variable taxonomy im Feld Taxonomie hinzu.
    • Fügen Sie die Variable validatedResults im Feld ValidierteExtraktionsergebnisse hinzu.
  17. Fügen Sie eine Write Text File-Aktivität nach der Present Validation Station-Aktivität hinzu.
    • Fügen Sie den Ausdruck JsonConvert.SerializeObject(validatedResults) in das Feld Text ein.
    • Fügen Sie den Ausdruck outputFileName2 + ".savedinVS.results.json" in das Feld Dateiname ein.
  18. Fügen Sie eine weitere Write Text File-Aktivität nach der Write Text File-Aktivität hinzu.
    • Fügen Sie den Ausdruck JsonConvert.SerializeObject(doubleValidatedResults) in das Feld Text ein.
    • Fügen Sie den Ausdruck outputFileName2 + ".doubleSavedinVS.results.json" in das Feld Dateiname ein.
  19. Führen Sie den Prozess aus. Der Automatisierungsprozess sollte die Validation Station öffnen, die Daten extrahieren, validieren und im Ausgabeordner speichern.
Besuchen Sie den folgenden Link, um das Beispiel im ZIP-Format herunterzuladen: Beispiel.

Definieren Ihrer Taxonomie

Sie haben Ihren Workflow erstellt, alle Variablen definiert und alle Aktivitäten angepasst. Jetzt ist es an der Zeit, Ihre Taxonomie zu definieren. Unter Taxonomie laden erfahren Sie mehr über das Definieren Ihrer eigenen Taxonomie.

Erstellen Sie Ihre Taxonomie, um Informationen aus einer Rechnung extrahieren zu können. Sie sollten sich auf das Erstellen eines Dokumenttyps Rechnung mit den in der folgenden Tabelle aufgeführten Feldern konzentrieren:

Tabelle 4. Felder des Rechnungsdokumenttyps

Name des Felds

Feldtyp

RechnungNr

Text

Zwischensumme

Number

Umsatzsteuer

Number

Gesamt

Number

Abbildung 1. Übersicht über die fertige Taxonomie mit den zuvor genannten Feldern

Erstellen Ihrer Vorlage

Jetzt wird die Vorlage für den Extraktionsprozess erstellt. Unter Taxonomie laden erfahren Sie, wie Sie eine Vorlage erstellen.

Konfigurieren Sie für dieses Beispiel die Vorlage mit den folgenden Werten:
  • Dokumenttyp: Rechnung.
  • Vorlagenname: Rechnung-Beispiel.
  • Vorlagendokument: Wählen Sie die Zieldatei aus.
  • OCR-Modul: Microsoft OCR.
  • Sprachen: en.
  • Profil: Scan.
  • Skala: 1.
Abbildung 2. Ein Beispiel für ein animiertes Bild, das die Konfiguration der Vorlage zeigt

Festlegen von Ankern in der Vorlage

Anker sind eine sehr spezielle und nützliche Funktion, wenn Sie präzise Informationen aus einem Dokument extrahieren müssen. Durch das Definieren eines Extraktionsbereichs mit einem Anker können Sie eine hohe Genauigkeit bei der Datenextraktion erwarten.

Nachdem die Taxonomie definiert und die Vorlage erstellt wurde, können Sie mit der Konfiguration der Vorlage beginnen, indem Sie Anker verwenden, d. h. der Extraktionsbereich wird in einem Kasten definiert und Anker werden zum Definieren der Kastenposition verwendet.

Überprüfen Sie die folgende Liste auf einige Hinweise, bevor Sie mit dem Hinzufügen von Ankern zu Ihrer Vorlage beginnen:

  • Das Ankerfeld sollte so groß wie möglich sein (Höhe, Breite), um jede Art von Rechnungsnummer, lange, kurze, große Schriftart usw. abzudecken.
  • Ein Extraktionsbereich kann so viele Anker wie nötig haben, aber nur einen, der als main definiert ist (der erste).
  • Verwenden Sie Anker, die aus mehreren Wörtern nebeneinander bestehen.
  • Der Hauptanker sollte sich so nah wie möglich am Extraktionsbereich befinden.
  • Die Positionen des Extraktionsbereichs und des Hauptankers sind in der Vorlage festgelegt, auch wenn sie auf verschiedene Dokumente angewendet werden. Das einzige, was variieren kann, ist der Abstand zwischen dem Hauptanker und den sekundären.

Fahren wir mit dem Konfigurieren der Vorlage fort und sehen wir uns an, wie Sie Daten mit einem Anker extrahieren können.

  1. Legen Sie den Extraktionsbereich fest:
    • Wählen Sie im rechten Bereich der Validation Station die Option Auswahlmodi aus.
    • Wählen Sie Anker aus.
    • Beginnen Sie mit der Auswahl des gewünschten Bereichs.
      Abbildung 3. Animiertes Bild, das zeigt, wie der Extraktionsbereich festgelegt wird

      Hinweis:

      Der Hauptanker sollte zwei oder drei Wörter enthalten, um eine hohe Genauigkeit und bessere Ergebnisse beim Extraktionsprozess zu erzielen.

      Wählen Sie beim Taggen eines Ankers mehrere Wörter aus, indem Sie STRG drücken und die gewünschten Wörter auswählen.

  2. Hauptanker festlegen:
    1. Wählen Sie noch im Anker-Auswahlmodus den gewünschten Bereich als Ihren Hauptanker aus.
    2. Wählen Sie Wert extrahieren für das gewünschte Feld aus.
      Abbildung 4. Ein Beispiel für ein animiertes Bild, das zeigt, wie der Hauptanker gesetzt wird

  3. Legen Sie die sekundären Anker fest:
    1. Stellen Sie sicher, dass Sie sich noch im Anker-Auswahlmodus befinden und die Hauptankerauswahl aktiviert ist.
    2. Wählen Sie die neuen Bereiche für die sekundären Anker aus.
    3. Wählen Sie Optionen für das gewünschte Feld und dann Extrahierten Wert ändern aus.
      Abbildung 5. Animiertes Bildbeispiel, das zeigt, wie sekundäre Anker festgelegt werden

Wiederholen Sie den Vorgang, bis Sie alle Extraktionsbereiche definiert und alle Ihre Anker hinzugefügt haben. Wenn Sie fertig sind, speichern Sie die Vorlage.

War diese Seite hilfreich?

Hilfe erhalten
RPA lernen – Automatisierungskurse
UiPath Community-Forum
Uipath Logo White
Vertrauen und Sicherheit
© 2005–2024 UiPath. Alle Rechte vorbehalten