Abonnieren

UiPath Document Understanding

UiPath Document Understanding

Mit einem zusätzlichen Feld erneut trainierte Rechnungen

🚧

Zielgruppe

Das Ziel dieser Seite ist es, neuen Benutzern zu helfen, sich mit Document Understanding vertraut zu machen.


Für skalierbare Produktionsbereitstellungen wird dringend empfohlen, den Document Understanding-Prozess zu verwenden, der in UiPath Studio im Abschnitt „Vorlagen“ zu finden ist.

Dieser Schnellstart zeigt Ihnen, wie Sie das out-of-the-box ML-Modell Invoices erneut trainieren, um ein weiteres Feld zu extrahieren.

Let’s use the same workflow we used for the receipts in the previous quickstart and modify it so it can support invoices.

Dazu müssen wir in unserem Workflow die folgenden Schritte ausführen:

  1. Die Taxonomie ändern
  2. Einen Klassifizierer hinzufügen
  3. Einen Machine Learning Extractor hinzufügen
  4. Die Daten beschriften
  5. Das ML-Modell für Rechnungen (Invoices) erneut trainieren

Sehen wir uns nun jeden Schritt im Detail an.

1. Die Taxonomie ändern


In diesem Schritt müssen wir die Taxonomie ändern, um den Rechnungsdokumenttyp hinzuzufügen.

To do so, open Taxonomy Manager and create group named "Semi Structured Documents", a category named "Finance", a document type named "Invoices". Create the above listed fields with user friendly names along with respective data types.

  • name (Name) – Text
  • vendor-addr (Lieferantenadresse) – Adresse
  • billing-name (Rechnungsname) – Text
  • billing-address (Rechnungsadresse) – Adresse
  • shipping-address (Lieferadresse) – Adresse
  • invoice-no (Rechnungsnummer) – Text
  • po-no (Auftragsnummer) – Text
  • vendor-vat-no (Umsatzsteuer Lieferant) – Text
  • date (Datum) – Datum
  • tax (Steuer) – Zahl
  • total (gesamt) – Zahl
  • payment-terms (Zahlungsbedingungen) – Text
  • net-amount (Nettosumme) – Zahl
  • due-date (Fälligkeitsdatum) – Datum
  • Rabatt – Number
  • Versandkosten - Number
  • payment-addr – Address
  • description (Beschreibung) – Text
  • items (Posten) – Tabelle
    • description (Beschreibung) – Text
    • quantity (Menge) – Zahl
    • unit-price (Stückpreis) – Zahl
    • line-amount (Zeilensumme) – Zahl
    • item-po-no – Text
    • line-no – Text
    • teil-nein – Text
    • billing-vat-no (Umsatzsteuernummer) – Text

2. Einen Klassifizierer hinzufügen


In diesem Schritt müssen wir einen Klassifizierer hinzufügen, damit wir sowohl Belege als auch Rechnungen mit unserem Workflow verarbeiten können.

Da unser Workflow jetzt zwei Dokumenttypen unterstützt, „Belege“ und „Rechnungen“, müssen wir den Klassifizierer hinzufügen, um zwischen verschiedenen Dokumenttypen zu unterscheiden, die als Eingabe kommen:

  1. Fügen Sie einen Classify Document Scope nach der Aktivität Digitize Document hinzu, geben Sie als Eingabeargumente DocumentPath, DocumentText, DocumentObjectModel und Taxonomy an und erfassen Sie die ClassificationResults in einer neuen Variablen. Wir benötigen diese Variable, um zu überprüfen, welche Dokumente wir verarbeiten.

  2. Wir müssen auch einen oder mehrere Klassifizierer angeben. In diesem Beispiel verwenden wir den Intelligent Keyword Classifier. Fügen Sie ihn der Aktivität Classify Document Scope hinzu.
    Auf dieser Seite können Sie eine fundierte Entscheidung darüber treffen, welche Klassifizierungsmethode Sie in verschiedenen Szenarien verwenden sollten.

  3. Trainieren Sie den Klassifizierer wie hier beschrieben.

  4. Konfigurieren Sie den Klassifizierer, indem Sie ihn für beide Dokumenttypen aktivieren.

  5. Je nach Anwendungsfall kann es vorkommen, dass Sie die Klassifizierung validieren möchten. Sie können dies mit der Aktivität Present Classification Station oder den Aktivitäten Create Document Classification Action und Wait For Document Classification Action And Resume tun.

3. Einen Machine Learning Extractor hinzufügen


In this step, we need to add a Machine Learning Extractor to the Data Extraction Scope activity and connect it to the Invoices public endpoint.

Das Verfahren ist genau das gleiche wie bei dem vorherigen Machine Learning Extractor für Belege, den wir zuvor hinzugefügt haben:

  1. Fügen Sie neben dem Machine Learning Extractor für Belege die Aktivität Machine Learning Extractor hinzu.

  2. Geben Sie den öffentlichen Endpunkt Invoices an, nämlich https://du.uipath.com/ie/invoices/, und einen API-Schlüssel zum Extraktor.

  3. Konfigurieren Sie den Extraktor so, dass er mit Rechnungen arbeitet, indem Sie die im Taxonomiemanager erstellten Felder den im ML-Modell verfügbaren Feldern zuordnen:

10741074
  1. Vergessen Sie nicht, die vom Classify Document Scope ausgegebene Variable ClassificationResults als Eingabe für den Data Extraction Scope zu verwenden, anstatt eine DocumentTypeId anzugeben.
    Am Ende sollte es ungefähr so aussehen:
765765
  1. Führen Sie den Workflow aus, um zu testen, dass er mit Rechnungen ordnungsgemäß funktioniert.

4. Die Daten beschriften


Wir müssen die Daten beschriften, bevor das ML-Basismodell für Invoices erneut trainiert wird, damit es das neue IBAN-Feld unterstützen kann.

  1. Sammeln Sie die Anforderungen und Stichprobendokumente in ausreichendem Umfang, um die Komplexität des Anwendungsfalls zu bewältigen.
    Beschriften Sie 50 Seiten, wie auf dieser Dokumentationsseite erläutert.
    Für unseren Anwendungsfall können Sie diese Dokumente verwenden.

  2. Gain access to an instance of Document Manager either on premises or in AI Center in the Cloud. Make sure you have the permissions to use Document Manager.

  3. Erstellen Sie ein AI Center-Projekt, wechseln Sie zu Datenbeschriftung -> UiPath Document Understanding und erstellen Sie eine Datenbeschriftung-Sitzung.

  4. Konfigurieren Sie ein OCR-Modul wie hier beschrieben. Versuchen Sie, eine Vielzahl Ihrer Produktionsdokumente zu importieren, und stellen Sie sicher, dass das OCR-Modul den Text liest, den Sie extrahieren müssen.
    Weitere Vorschläge in diesem Abschnitt. Fahren Sie erst mit dem nächsten Schritt fort, nachdem Sie sich auf ein OCR-Modul festgelegt haben.

  5. Create a fresh Document Manager session, and import a Training set and an Evaluation set, while making sure to check the Make this a Test set checkbox when importing the Evaluation set.
    Weitere Details zu Importen finden Sie hier.

  6. Erstellen und konfigurieren Sie das Feld IBAN, wie hier beschrieben.
    Erweiterte Richtlinien sind in diesem Abschnitt verfügbar.

  7. Beschriften Sie ein Trainings-Dataset und ein Auswertungs-Dataset, wie hier und hier beschrieben.
    The prelabeling feature of Document Manager described here can make the labeling work a lot easier.

  8. Export first the Evaluation set and then the Training set to AI Center by selecting them from the filter dropdown at the top of the Document Manager view.
    Ausführliche Informationen zur Überprüfung finden Sie hier.

Als Nächstes erstellen wir unser Modell, trainieren und stellen es bereit.

5. Das ML-Modell für Rechnungen (Invoices) erneut trainieren


Da unser Workflow jetzt die Verarbeitung von Rechnungen unterstützt, müssen wir die IBAN aus unseren Rechnungen extrahieren. Das ist ein Feld, das standardmäßig nicht vom out-of-the-box ML-Modell für Rechnungen (Invoices) aufgenommen wird. Das bedeutet, dass wir ein neues Modell erneut trainieren müssen, beginnend mit dem Basismodell.

  1. Erstellen Sie ein ML-Paket, wie hier beschrieben. Wenn sich Ihr Dokumenttyp von dem sofort verfügbaren unterscheidet, wählen Sie das ML-Paket DocumentUnderstanding aus. Andernfalls verwenden Sie das Paket, das am nächsten an dem Dokumenttyp entfernt ist, den Sie extrahieren müssen.

  2. Create a Training Pipeline as described here using the Input dataset which you exported in the previous section from Document Manager.

  3. Wenn das Training abgeschlossen ist und Sie die Nebenversion 1 des Pakets haben, führen Sie eine Auswertungspipeline für diese Nebenversion aus und überprüfen Sie den direkten Nebeneinander-Vergleich der evaluation.xlsx.
    Verwenden Sie die detaillierten Richtlinien hier.

  4. If the evaluation results are satisfactory, go to the ML Skills view and create an ML Skill using the new minor version of the ML Package. If you want to use this to do prelabeling in Document Manager, you need to click on the Modify Current Deployment button at the top right of the ML Skill view and toggle on the Make ML Skill Public.

  5. Nach der Erstellung der ML-Fähigkeit müssen wir sie nun in Studio nutzen. Der einfachste Weg hierfür ist, die ML-Fähigkeit wie hier beschrieben öffentlich zu machen. Dann müssen Sie nur noch den öffentlichen Endpunkt des ML-Modells Invoices, den wir ursprünglich dem Machine Learning Extractor in unserem Workflow hinzugefügt haben, durch den öffentlichen Endpunkt der ML-Fähigkeit ersetzen.

  6. Führen Sie den Workflow aus. Sie sollten nun sehen, dass das neu hinzugefügte IBAN-Feld zusammen mit den Standardrechnungen extrahiert wird.

Beispiel herunterladen


Download this sample project using this link. You need to change the Machine Learning Extractor for Invoices from Endpoint mode to your trained ML Skill.

Aktualisiert vor 5 Monaten


Mit einem zusätzlichen Feld erneut trainierte Rechnungen


Auf API-Referenzseiten sind Änderungsvorschläge beschränkt

Sie können nur Änderungen an dem Textkörperinhalt von Markdown, aber nicht an der API-Spezifikation vorschlagen.