document-understanding

2022.4

true

Wichtig :

Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.

Document Understanding-Benutzerhandbuch.

BEREITSTELLUNG:

Letzte Aktualisierung 4. Apr. 2025

Mit einem zusätzlichen Feld erneut trainierte Rechnungen

Wichtig:

Das Ziel dieser Seite ist es, neuen Benutzern zu helfen, sich mit Document Understanding vertraut zu machen.

Für skalierbare Produktionsbereitstellungen wird dringend empfohlen, den Document Understanding-Prozess zu verwenden, der in UiPath Studio im Abschnitt „Vorlagen“ zu finden ist.

Dieser Schnellstart zeigt Ihnen, wie Sie das out-of-the-box ML-Modell Invoices erneut trainieren, um ein weiteres Feld zu extrahieren.

Wir verwenden denselben Workflow, den wir für die Belege im vorherigen Schnellstart verwendet haben, und ändern ihn so, dass er Rechnungen unterstützt.

Dazu müssen wir in unserem Workflow die folgenden Schritte ausführen:

Die Taxonomie ändern
Einen Klassifizierer hinzufügen
Einen Machine Learning Extractor hinzufügen
Die Daten beschriften
Das ML-Modell für Rechnungen (Invoices) erneut trainieren

Sehen wir uns nun jeden Schritt im Detail an.

1. Die Taxonomie ändern

In diesem Schritt müssen wir die Taxonomie ändern, um den Rechnungsdokumenttyp hinzuzufügen.

Öffnen Sie dazu den Taxonomiemanager und erstellen Sie eine Gruppe mit dem Namen „Halbstrukturierte Dokumente“, eine Kategorie mit dem Namen „Finanzen“ und einen Dokumenttyp namens „Rechnungen“. Erstellen Sie die oben aufgeführten Felder mit benutzerfreundlichen Namen zusammen mit den jeweiligen Datentypen.

name (Name) – Text
vendor-addr (Lieferantenadresse) – Adresse
billing-name (Rechnungsname) – Text
billing-address (Rechnungsadresse) – Adresse
shipping-address (Lieferadresse) – Adresse
invoice-no (Rechnungsnummer) – Text
po-no (Auftragsnummer) – Text
vendor-vat-no (Umsatzsteuer Lieferant) – Text
date (Datum) – Datum
tax (Steuer) – Zahl
total (gesamt) – Zahl
payment-terms (Zahlungsbedingungen) – Text
net-amount (Nettosumme) – Zahl
due-date (Fälligkeitsdatum) – Datum
Rabatt – Number
Versandkosten - Number
payment-addr – Address
description (Beschreibung) – Text
items (Posten) – Tabelle
- description (Beschreibung) – Text
- quantity (Menge) – Zahl
- unit-price (Stückpreis) – Zahl
- line-amount (Zeilensumme) – Zahl
- item-po-no – Text
- line-no – Text
- teil-nein – Text
- billing-vat-no (Umsatzsteuernummer) – Text

2. Einen Klassifizierer hinzufügen

In diesem Schritt müssen wir einen Klassifizierer hinzufügen, damit wir sowohl Belege als auch Rechnungen mit unserem Workflow verarbeiten können.

Da unser Workflow jetzt zwei Dokumenttypen unterstützt, „Belege“ und „Rechnungen“, müssen wir den Klassifizierer hinzufügen, um zwischen verschiedenen Dokumenttypen zu unterscheiden, die als Eingabe kommen:

Fügen Sie einen Classify Document Scope nach der Aktivität Digitize Document hinzu, geben Sie als Eingabeargumente DocumentPath, DocumentText, DocumentObjectModel und Taxonomy an und erfassen Sie die ClassificationResults in einer neuen Variablen. Wir benötigen diese Variable, um zu überprüfen, welche Dokumente wir verarbeiten.
Wir müssen auch einen oder mehrere Klassifizierer angeben. In diesem Beispiel verwenden wir den Intelligent Keyword Classifier. Fügen Sie ihn der Aktivität Classify Document Scope hinzu.

Auf dieser Seite können Sie eine fundierte Entscheidung darüber treffen, welche Klassifizierungsmethode Sie in verschiedenen Szenarien verwenden sollten.
Trainieren Sie den Klassifizierer wie hier beschrieben.
Konfigurieren Sie den Klassifizierer, indem Sie ihn für beide Dokumenttypen aktivieren.
Je nach Anwendungsfall kann es vorkommen, dass Sie die Klassifizierung validieren möchten. Das ist möglich mit der Aktivität Present Classification Station oder den Aktivitäten Create Document Classification Action und Wait For Document Classification Action And Resume.

3. Einen Machine Learning Extractor hinzufügen

In diesem Schritt müssen wir der Aktivität Data Extraction Scope einen Machine Learning Extractor hinzufügen und ihn mit dem öffentlichen Endpunkt Rechnungen (Invoices) verbinden.

Das Verfahren ist das gleiche wie bei dem vorherigen Machine Learning Extractor für Belege, den wir zuvor hinzugefügt haben:

Fügen Sie neben dem Machine Learning Extractor für Belege die Aktivität Machine Learning Extractor hinzu.
Geben Sie den öffentlichen Endpunkt Invoices an, nämlich https://du.uipath.com/ie/invoices/, und einen API-Schlüssel zum Extraktor.
Konfigurieren Sie den Extraktor so, dass er mit Rechnungen arbeitet, indem Sie die im Taxonomiemanager erstellten Felder den im ML-Modell verfügbaren Feldern zuordnen:
Vergessen Sie nicht, die vom Classify Document Scope ausgegebene Variable ClassificationResults als Eingabe für den Data Extraction Scope zu verwenden, anstatt eine DocumentTypeId anzugeben.

Am Ende sollte es ungefähr so aussehen:
Führen Sie den Workflow aus, um zu testen, dass er mit Rechnungen ordnungsgemäß funktioniert.

4. Die Daten beschriften

Wir müssen die Daten beschriften, bevor das ML-Basismodell für Invoices erneut trainiert wird, damit es das neue IBAN-Feld unterstützen kann.

Sammeln Sie die Anforderungen und Stichprobendokumente in ausreichendem Umfang, um die Komplexität des Anwendungsfalls zu bewältigen.

Beschriften Sie 50 Seiten, wie auf dieser Dokumentationsseite erläutert.
Beschaffen Sie sich Zugriff auf eine Instanz von Document Manager entweder lokal oder im AI Center in der Cloud. Stellen Sie sicher, dass Sie über die Berechtigungen zur Verwendung von Document Manager verfügen.
Erstellen Sie ein AI Center-Projekt, wechseln Sie zu Datenbeschriftung -> UiPath Document Understanding und erstellen Sie eine Datenbeschriftung-Sitzung.
Konfigurieren Sie ein OCR-Modul, wie hier beschrieben. Versuchen Sie, vielfältige Produktionsdokumente zu importieren, und stellen Sie sicher, dass das OCR-Modul den Text liest, den Sie extrahieren müssen.

Weitere Vorschläge in diesem Abschnitt. Fahren Sie erst mit dem nächsten Schritt fort, nachdem Sie sich auf ein OCR-Modul festgelegt haben.
Erstellen Sie eine neue Document Manager-Sitzung und importieren Sie einen Trainingssatz sowie einen Auswertungssatz. Stellen Sie beim Importieren des Auswertungssatzes sicher, dass das Kontrollkästchen Machen Sie dies zu einem Testsatz aktiviert ist.
Erstellen und konfigurieren Sie das IBAN-Feld.

Erweiterte Richtlinien sind in diesem Abschnitt verfügbar.
Beschriften Sie ein Trainings-Dataset und ein Auswertungs-Dataset, wie hier beschrieben.

Die Vorbeschriftungsfunktion von Document Manager kann die Beschriftung viel einfacher machen.
Exportieren Sie zuerst den Auswertungssatz und dann den Trainingssatz in das AI Center, indem Sie sie im Filter-Dropdownmenü oben in der Document Manager-Ansicht auswählen.

Als Nächstes erstellen wir unser Modell, trainieren es erneut und stellen es bereit.

5. Das ML-Modell für Rechnungen (Invoices) erneut trainieren

Da unser Workflow jetzt die Verarbeitung von Rechnungen unterstützt, müssen wir die IBAN aus unseren Rechnungen extrahieren. Das ist ein Feld, das standardmäßig nicht vom out-of-the-box ML-Modell für Rechnungen (Invoices) aufgenommen wird. Das bedeutet, dass wir ein neues Modell erneut trainieren müssen, beginnend mit dem Basismodell.

Erstellen Sie ein ML-Paket, wie hier beschrieben. Wenn sich Ihr Dokumenttyp von den vorgefertigten unterscheidet, wählen Sie das ML-Paket DocumentUnderstanding aus. Andernfalls verwenden Sie das Paket, das dem zu extrahierenden Dokumenttyp am nächsten ist.
Erstellen Sie eine Trainingspipeline wie hier beschrieben mithilfe des Eingabe-Datasets, das Sie im vorherigen Abschnitt aus dem Document Manager exportiert haben.
Wenn das Training abgeschlossen ist und Sie die Nebenversion 1 des Pakets haben, führen Sie eine Auswertungspipeline für diese Nebenversion aus und überprüfen Sie den direkten Nebeneinander-Vergleich der evaluation.xlsx.

Verwenden Sie die detaillierten Richtlinien hier.
Wenn die Bewertungsergebnisse zufriedenstellend sind, wechseln Sie zur Ansicht für die ML-Fähigkeiten und erstellen Sie eine ML-Fähigkeit mit der neuen Nebenversion des ML-Pakets. Wenn Sie diese für die Vorbeschriftung im Document Manager verwenden möchten, müssen Sie auf die Schaltfläche Aktuelle Bereitstellung ändern rechts oben in der Ansicht für die ML-Fähigkeit klicken und auf ML-Fähigkeit öffentlich machen umschalten.
Nach der Erstellung der ML-Fähigkeit müssen wir sie nun in Studio nutzen. Der einfachste Weg hierfür ist, die ML-Fähigkeit wie hier beschrieben öffentlich zu machen. Dann müssen Sie nur noch den öffentlichen Endpunkt des ML-Modells Invoices, den wir ursprünglich dem Machine Learning Extractor in unserem Workflow hinzugefügt haben, durch den öffentlichen Endpunkt der ML-Fähigkeit ersetzen.
Führen Sie den Workflow aus. Sie sollten nun sehen, dass das neu hinzugefügte IBAN-Feld zusammen mit den Standardrechnungen extrahiert wird.

Beispiel herunterladen

Laden Sie dieses Beispielprojekt unter diesem Link herunter. Sie müssen den Machine Learning Extractor für Rechnungen (Invoices) vom Endpunktmodus in Ihre trainierte ML-Fähigkeit ändern.

Auf dieser Seite