UiPath Documentation
activities
latest
false
Wichtig :
Bitte beachten Sie, dass dieser Inhalt teilweise mithilfe von maschineller Übersetzung lokalisiert wurde. Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.

Document Understanding-Aktivitäten

Ankerbasierte Datenextraktion mit Intelligent Form Extractor

Im folgenden Beispiel wird erläutert, wie Daten aus einem Formular extrahiert werden, das auch handgeschriebenen Text enthalten kann. Im folgenden Anwendungsszenario wird erläutert, wie Daten aus einer Bestellung extrahiert werden.

Es enthält Aktivitäten wie Digitize Document, Data Extraction Scope oder Intelligent Form Extractor. Diese Aktivitäten finden Sie im Paket UiPath.IntelligentOCR.Activities .

Erstellen des Workflows

Die folgenden Pakete müssen installiert werden, bevor der folgende Workflow erstellt werden kann:

  • UiPath.DocumentProcessing.Contracts.Activities
  • UiPath.IntelligentOCR.Aktivitäten (UiPath.IntelligentOCR.Activities)
  • UiPath.OCR.Activities
  • UiPath.OCR.Contracts
  • UiPath.WebApi.Activities

Steps:

  1. Öffnen Sie Studio und erstellen Sie einen neuen Prozess.

  2. Fügen Sie einen Sequence-Container im Workflow Designer hinzu, nennen Sie ihn Sequence1, und erstellen Sie die in der folgenden Tabelle angezeigten Variablen:

    Tabelle 1. Zu erstellende Variablen

    VariablentypStandardwert
    itemStringKeine Angabe
    classificationResultClassificationResult[]Keine Angabe
    outputFileNameGenericValueKeine Angabe
  3. Fügen Sie einen weiteren Sequence-Container im Workflow Designer hinzu, nennen Sie ihn Sequence2, und erstellen Sie die in der folgenden Tabelle angezeigten Variablen:

    Tabelle 2. Zu erstellende Variablen

    VariablentypStandardwert
    textStringKeine Angabe
    taxonomyDocumentTaxonomyKeine Angabe
    domDocumentKeine Angabe
    documentPathStringKeine Angabe
    classificationResult2ClassificationResult[]Keine Angabe
    outputFileName2GenericValueKeine Angabe
  4. Add a Message Box activity inside the sequence.

    • Wählen Sie im Eigenschaftenbereich die Option Ok von der Dropdownliste Schaltflächen aus. Fügen Sie die folgende Meldung in das Text- Feld ein: „Wählen Sie eine PDF-Datei aus“.
  5. Aktivieren Sie das Kontrollkästchen für die Option Oberste. Dadurch wird die „Message Box“ in den Vordergrund gebracht.

  6. Fügen Sie eine Select File-Aktivität nach der Message Box-Aktivität hinzu.

    • Fügen Sie im Eigenschaftenbereich den folgenden Text in das Feld Filter ein: Pdf files (*.pdf)|*.pdf
    • Add the documentPath variable in the SelectedFile field.
  7. Fügen Sie eine Assign-Aktivität nach der Select File-Aktivität hinzu.

    • Add the outputFileName2 variable in the To field.
    • Fügen Sie den Ausdruck ".temp/" + Path.GetFileName(documentPath) in das Feld Wert ein.
  8. Fügen Sie eine Deserialize JSON-Aktivität nach der Assign-Aktivität hinzu.

    • Add the expression File.ReadAllText("DocumentProcessing axonomy.json") in the JSON String field.
    • In the Properties panel, select the UiPath.DocumentProcessing.Contracts.Taxonomy.DocumentTaxonomy option from the TypeArgument dropdown list.
    • Add the taxonomy variable in the JsonObject field.
  9. Fügen Sie eine Digitize Document-Aktivität nach der Deserialize JSON-Aktivität hinzu.

    • In the Properties panel, add the value 1 in the DegreeOfParallelism field.
    • Add the documentPath variable in the DocumentPath field.
    • Add the dom variable in the DocumentObjectModel field.
    • Add the text variable in the DocumentText field.
    • Fügen Sie das UiPath® Document OCR- Modul innerhalb der Aktivität hinzu.
    • Add your API Key inside the ApiKey field.
    • Add the "https://du.uipath.com/ocr" expression in the Endpoint field.
  10. Fügen Sie eine Write Text File-Aktivität nach der Digitize Document-Aktivität hinzu.

    • Add the JsonConvert.SerializeObject(dom) expression in the Text field.
    • Add the outputFileName2 + ".dom.json" expression in the FileName field.
  11. Fügen Sie eine weitere Write Text File-Aktivität nach der Write Text File-Aktivität hinzu.

    • Add the text variable in the Text field.
    • Add the outputFileName2 + ".text.txt" expression in the FileName field.
  12. Fügen Sie einen weiteren Sequence-Container im Workflow Designer hinzu, nennen Sie ihn Sequence3, und erstellen Sie die in der folgenden Tabelle angezeigten Variablen:

    Tabelle 3. Zu erstellende Variablen

    VariablentypStandardwert
    extractionResultExtraktionsergebnisKeine Angabe
    validatedResultsExtraktionsergebnisKeine Angabe
    doubleValidatedResultsExtraktionsergebnisKeine Angabe
    datasetDatasetKeine Angabe
    iInt32Keine Angabe
  13. Add a Data Extraction Scope activity inside the Sequence3.

    • In the Properties panel, add the dom variable in the DocumentObjectModel field.
    • Add the documentPath variable in the DocumentPath field.
    • Add the text variable in the DocumentText field.
    • Add the "All.Benchmarks.Invoice" expression in the DocumentTypeId field.
    • Add the taxonomy variable in the Taxonomy field.
    • Add the extractionResult variable in the ExtractionResults field.
  14. Add an Intelligent Form Extractor activity inside the Data Extraction Scope activity.

    • Add your API Key in the ApiKey field.
  15. Fügen Sie eine Write Text File-Aktivität nach der Aktivität Data Extraction Scope hinzu.

    • Add the JsonConvert.SerializeObject(extractionResult) expression in the Text field.
    • Add the outputFileName2 + ".results.json" expression in the FileName field.
  16. Fügen Sie eine Present Validation Station-Aktivität nach der Write Text File-Aktivität hinzu.

    • Add the extractionResult variable in the AutomaticExtractionResults field.
    • Add the dom variable in the DocumentObjectModel field.
    • Add the documentPath variable in the DocumentPath field.
    • Add the text variable in the DocumentText field.
    • Add the taxonomy variable in the Taxonomy field.
    • Add the validatedResults variable in the ValidatedExtractionResults field.
  17. Fügen Sie eine Write Text File-Aktivität nach der Present Validation Station-Aktivität hinzu.

    • Add the JsonConvert.SerializeObject(validatedResults) expression in the Text field.
    • Add the outputFileName2 + ".savedinVS.results.json" expression in the FileName field.
  18. Fügen Sie eine weitere Write Text File-Aktivität nach der Write Text File-Aktivität hinzu.

    • Add the JsonConvert.SerializeObject(doubleValidatedResults) expression in the Text field.
    • Add the outputFileName2 + ".doubleSavedinVS.results.json" expression in the FileName field.
  19. Führen Sie den Prozess aus. Der Automatisierungsprozess sollte die Validation Station öffnen, die Daten extrahieren, validieren und im Ausgabeordner speichern.

Besuchen Sie den folgenden Link, um das Beispiel im ZIP -Format herunterzuladen: Beispiel.

Definieren Ihrer Taxonomie

Sie haben Ihren Workflow erstellt, alle Variablen definiert und alle Aktivitäten angepasst. Jetzt ist es an der Zeit, Ihre Taxonomie zu definieren. Unter Taxonomie laden erfahren Sie mehr über das Definieren Ihrer eigenen Taxonomie.

Erstellen Sie Ihre Taxonomie, um Informationen aus einer Rechnung extrahieren zu können. Sie sollten sich auf das Erstellen eines Dokumenttyps Rechnung mit den in der folgenden Tabelle aufgeführten Feldern konzentrieren:

Tabelle 4. Felder des Rechnungsdokumenttyps

Feldtyp
RechnungNrText
ZwischensummeNumber
UmsatzsteuerNumber
GesamtNumber

Abbildung 1. Übersicht über die fertige Taxonomie mit den zuvor genannten Feldern

Erstellen Ihrer Vorlage

Jetzt wird die Vorlage für den Extraktionsprozess erstellt. Unter Taxonomie laden erfahren Sie, wie Sie eine Vorlage erstellen.

Konfigurieren Sie für dieses Beispiel die Vorlage mit den folgenden Werten:

  • Dokumenttyp: Rechnung.
  • Vorlagenname: Rechnungsbeispiel.
  • Vorlagendokument: Wählen Sie die Zieldatei aus.
  • OCR-Modul: Microsoft OCR.
  • Sprachen: en.
  • Profil: Scan.
  • Skalierung: 1.

Abbildung 2. Animiertes Bildbeispiel, das die Konfiguration der Vorlage zeigt

Festlegen von Ankern in der Vorlage

Anker sind eine sehr spezielle und nützliche Funktion, wenn Sie präzise Informationen aus einem Dokument extrahieren müssen. Durch das Definieren eines Extraktionsbereichs mit einem Anker können Sie eine hohe Genauigkeit bei der Datenextraktion erwarten.

Nachdem die Taxonomie definiert und die Vorlage erstellt wurde, können Sie mit der Konfiguration der Vorlage beginnen, indem Sie Anker verwenden, d. h. der Extraktionsbereich wird in einem Kasten definiert und Anker werden zum Definieren der Kastenposition verwendet.

Überprüfen Sie die folgende Liste auf einige Hinweise, bevor Sie mit dem Hinzufügen von Ankern zu Ihrer Vorlage beginnen:

  • Das Ankerfeld sollte so groß wie möglich sein (Höhe, Breite), um jede Art von Rechnungsnummer, lange, kurze, große Schriftart usw. abzudecken.
  • Ein Extraktionsbereich kann so viele Anker wie nötig haben, aber nur einen, der als main definiert ist (der erste).
  • Verwenden Sie Anker, die aus mehreren Wörtern nebeneinander bestehen.
  • Der Hauptanker sollte sich so nah wie möglich am Extraktionsbereich befinden.
  • Die Positionen des Extraktionsbereichs und des Hauptankers sind in der Vorlage festgelegt, auch wenn sie auf verschiedene Dokumente angewendet werden. Das einzige, was variieren kann, ist der Abstand zwischen dem Hauptanker und den sekundären.

Fahren wir mit dem Konfigurieren der Vorlage fort und sehen wir uns an, wie Sie Daten mit einem Anker extrahieren können.

  1. Legen Sie den Extraktionsbereich fest:
    • Wählen Sie im rechten Bereich der Validation Station die Auswahlmodi.

    • Wählen Sie Anker aus.

    • Beginnen Sie mit der Auswahl des gewünschten Bereichs.

      Hinweis:

      Der Hauptanker sollte zwei oder drei Wörter enthalten, um eine hohe Genauigkeit und bessere Ergebnisse beim Extraktionsprozess zu erzielen.

      Wählen Sie beim Taggen eines Ankers mehrere Wörter aus, indem Sie STRG drücken und die gewünschten Wörter auswählen.

  2. Hauptanker festlegen:
    1. Wählen Sie noch im Anker-Auswahlmodus den gewünschten Bereich als Ihren Hauptanker aus.
    2. Wählen Sie Wert extrahieren für das gewünschte Feld aus.
  3. Legen Sie die sekundären Anker fest:
    1. Stellen Sie sicher, dass Sie sich noch im Anker-Auswahlmodus befinden und die Hauptankerauswahl aktiviert ist.
    2. Wählen Sie die neuen Bereiche für die sekundären Anker aus.
    3. Wählen Sie Optionen für das gewünschte Feld und dann Extrahierten Wert ändern aus.

Wiederholen Sie den Vorgang, bis Sie alle Extraktionsbereiche definiert und alle Ihre Anker hinzugefügt haben. Wenn Sie fertig sind, speichern Sie die Vorlage.

War diese Seite hilfreich?

Verbinden

Benötigen Sie Hilfe? Support

Möchten Sie lernen? UiPath Academy

Haben Sie Fragen? UiPath-Forum

Auf dem neuesten Stand bleiben