- Überblick
- Document Understanding-Prozess
- Schnellstart-Tutorials
- Extrahieren von Daten aus Belegen
- Mit einem zusätzlichen Feld erneut trainierte Rechnungen
- Extrahieren von Daten aus Formularen
- Framework-Komponenten
- Überblick
- Document Understanding-Aktivitäten
- Übersicht zur Dokumentklassifizierung
- „Klassifizierer konfigurieren“-Assistent von Classify Document Scope
- Intelligenter Schlüsselwortklassifizierer
- Schlüsselwortbasierte Classifier (Keyword Based Classifier)
- Machine Learning Classifier
- Generativer Klassifizierer
- Dokumentklassifizierung – verwandte Aktivitäten
- Datenverbrauch
- API-Aufrufe
- ML-Pakete
- Überblick
- Document Understanding – ML-Paket
- DocumentClassifier – ML-Paket
- ML-Pakete mit OCR-Funktionen
- 1040 – ML-Paket
- 1040 Anlage C – ML-Paket
- 1040 Anlage D – ML-Paket
- 1040 Anlage E – ML-Paket
- 1040x – ML-Paket
- 3949a – ML-Paket
- 4506T – ML-Paket
- 709 – ML-Paket
- 941x – ML-Paket
- 9465 – ML-Paket
- 990 – ML-Paket – Vorschau
- ACORD125 – ML-Paket
- ACORD126 – ML-Paket
- ACORD131 – ML-Paket
- ACORD140 – ML-Paket
- ACORD25 – ML-Paket
- Bank Statements – ML-Paket
- BillsOfLading – ML-Paket
- Certificate of Incorporation – ML-Paket
- Certificates of Origin – ML-Paket
- Checks – ML-Paket
- Children Product Certificate – ML-Paket
- CMS1500 – ML-Paket
- EU Declaration of Conformity – ML-Paket
- Financial Statements – ML-Paket
- FM1003 – ML-Paket
- I9 – ML-Paket
- ID Cards – ML-Paket
- Invoices – ML-Paket
- InvoicesChina – ML-Paket
- Rechnungen Hebräisch – ML-Paket
- InvoicesIndia – ML-Paket
- InvoicesJapan – ML-Paket
- Invoices Shipping – ML-Paket
- Packing Lists – ML-Paket
- Passports – ML-Paket
- Gehaltsabrechnungen (Pay slips) – ML-Paket
- Purchase Orders – ML-Paket
- Receipts – ML-Paket
- RemittanceAdvices – ML-Paket
- UB04 – ML-Paket
- Utility Bills – ML-Paket
- Vehicle Titles – ML-Paket
- W2 – ML-Paket
- W9 – ML-Paket
- Andere out-of-the-box ML-Pakete
- Öffentliche Endpunkte
- Hardwareanforderungen
- Pipelines
- Dokumentmanager
- OCR-Dienste
- Deep Learning
- Insights-Dashboards
- Document Understanding – in der Automation Suite bereitgestellt
- Document Understanding – im eigenständigen AI Center bereitgestellt
- Aktivitäten
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Aktivitäten (UiPath.IntelligentOCR.Activities)
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.Omnipage.Activities
- UiPath.PDF.Aktivitäten (UiPath.PDF.Activities)
Mit einem zusätzlichen Feld erneut trainierte Rechnungen
Das Ziel dieser Seite ist es, neuen Benutzern zu helfen, sich mit Document UnderstandingTM vertraut zu machen.
Für skalierbare Produktionsbereitstellungen wird dringend empfohlen, den Document Understanding-Prozess zu verwenden, der in UiPath® Studio im Abschnitt „Vorlagen“ zu finden ist.
Dieser Schnellstart zeigt Ihnen, wie Sie das out-of-the-box ML-Modell Invoices erneut trainieren, um ein weiteres Feld zu extrahieren.
Wir verwenden denselben Workflow, den wir für die Belege im vorherigen Schnellstart verwendet haben, und ändern ihn so, dass er Rechnungen unterstützt.
Dazu müssen wir in unserem Workflow die folgenden Schritte ausführen:
- Die Taxonomie ändern
- Einen Klassifizierer hinzufügen
- Einen Machine Learning Extractor hinzufügen
- Die Daten beschriften
- Das ML-Modell für Rechnungen (Invoices) erneut trainieren
Sehen wir uns nun jeden Schritt im Detail an.
In diesem Schritt müssen wir die Taxonomie ändern, um den Rechnungsdokumenttyp hinzuzufügen.
Öffnen Sie den Taxonomiemanager und erstellen Sie eine Gruppe mit dem Namen Halbstrukturierte Dokumente, eine Kategorie mit dem Namen Finanzen und einen Dokumenttyp namens Rechnungen. Erstellen Sie oben aufgeführte Felder mit benutzerfreundlichen Namen zusammen mit den jeweiligen Datentypen.
- name (Name) – Text
- vendor-addr (Lieferantenadresse) – Adresse
- billing-name (Rechnungsname) – Text
- billing-address (Rechnungsadresse) – Adresse
- shipping-address (Lieferadresse) – Adresse
- invoice-no (Rechnungsnummer) – Text
- po-no (Auftragsnummer) – Text
- vendor-vat-no (Umsatzsteuer Lieferant) – Text
- date (Datum) – Datum
- tax (Steuer) – Zahl
- total (gesamt) – Zahl
- payment-terms (Zahlungsbedingungen) – Text
- net-amount (Nettosumme) – Zahl
- due-date (Fälligkeitsdatum) – Datum
- Rabatt –
Number
- Versandkosten -
Number
- payment-addr –
Address
- description (Beschreibung) – Text
- items (Posten) – Tabelle
- description (Beschreibung) – Text
- quantity (Menge) – Zahl
- unit-price (Stückpreis) – Zahl
- line-amount (Zeilensumme) – Zahl
- item-po-no –
Text
- line-no –
Text
- teil-nein –
Text
- billing-vat-no (Umsatzsteuernummer) – Text
In diesem Schritt müssen wir einen Klassifizierer hinzufügen, damit wir sowohl Belege als auch Rechnungen mit unserem Workflow verarbeiten können.
Da unser Workflow jetzt zwei Dokumenttypen unterstützt, Belege und Rechnungen, müssen wir den Klassifizierer hinzufügen, um zwischen verschiedenen Dokumenttypen zu unterscheiden, die als Eingabe kommen:
- Fügen Sie einen Classify Document Scope nach der Aktivität Digitize Document hinzu, geben Sie als Eingabeargumente DocumentPath, DocumentText, DocumentObjectModel und Taxonomy an und erfassen Sie die ClassificationResults in einer neuen Variablen. Wir benötigen diese Variable, um zu überprüfen, welche Dokumente wir verarbeiten.
- Wir müssen auch einen oder mehrere Klassifizierer angeben. In diesem Beispiel verwenden wir den Intelligent Keyword Classifier. Fügen Sie ihn der Aktivität Classify Document Scope hinzu.
Auf dieser Seite können Sie eine fundierte Entscheidung darüber treffen, welche Klassifizierungsmethode Sie in verschiedenen Szenarien verwenden sollten.
- Trainieren Sie den Klassifizierer wie hier beschrieben.
- Konfigurieren Sie den Klassifizierer, indem Sie ihn für beide Dokumenttypen aktivieren.
- Je nach Anwendungsfall kann es vorkommen, dass Sie die Klassifizierung validieren möchten. Das ist möglich mit der Aktivität Present Classification Station oder den Aktivitäten Create Document Classification Action und Wait For Document Classification Action And Resume.
In diesem Schritt müssen wir der Aktivität Data Extraction Scope einen Machine Learning Extractor hinzufügen und ihn mit dem öffentlichen Endpunkt Rechnungen (Invoices) verbinden.
Das Verfahren ist genau das gleiche wie bei dem vorherigen Machine Learning Extractor für Belege, den wir zuvor hinzugefügt haben:
- Fügen Sie neben dem Machine Learning Extractor für Belege die Aktivität Machine Learning Extractor hinzu.
- Geben Sie den öffentlichen Endpunkt Invoices ein, nämlich
https://du.uipath.com/ie/invoices
, und einen API-Schlüssel für den Extraktor an. - Konfigurieren Sie den Extraktor so, dass er mit Rechnungen arbeitet, indem Sie die im Taxonomiemanager erstellten Felder den im ML-Modell verfügbaren Feldern zuordnen:
- Vergessen Sie nicht, die vom Classify Document Scope ausgegebene Variable ClassificationResults als Eingabe für den Data Extraction Scope zu verwenden, anstatt eine DocumentTypeId anzugeben.
Am Ende sollte es ungefähr so aussehen:
- Führen Sie den Workflow aus, um zu testen, dass er mit Rechnungen ordnungsgemäß funktioniert.
Wir müssen die Daten beschriften, bevor das ML-Basismodell für Invoices erneut trainiert wird, damit es das neue IBAN-Feld unterstützen kann.
- Sammeln Sie die Anforderungen und Muster der Rechnungsdokumente in einem ausreichendem Umfang für die Komplexität des Anwendungsfalls. Beschriften Sie 50 Seiten, wie auf dieser Dokumentationsseite erläutert.
- Beschaffen Sie sich Zugriff auf eine Instanz von Document Manager entweder lokal oder im AI Center in der Cloud. Stellen Sie sicher, dass Sie über die Berechtigungen zur Verwendung von Document Manager verfügen.
- Erstellen Sie ein AI Center-Projekt, wechseln Sie zu Datenbeschriftung -> UiPath Document Understanding und erstellen Sie eine Datenbeschriftung-Sitzung.
- Konfigurieren Sie ein OCR-Modul, wie hier beschrieben. Versuchen Sie, vielfältige Produktionsdokumente zu importieren, und stellen Sie sicher, dass das OCR-Modul den Text liest, den Sie extrahieren müssen.
Weitere Vorschläge in diesem Abschnitt. Fahren Sie erst mit dem nächsten Schritt fort, nachdem Sie sich auf ein OCR-Modul festgelegt haben.
- Erstellen Sie eine neue Document Manager-Sitzung und importieren Sie einen Trainingssatz sowie einen Auswertungssatz. Stellen Sie beim Importieren des Auswertungssatzes sicher, dass das Kontrollkästchen Machen Sie dies zu einem Testsatz aktiviert ist. Weitere Details zu Importen finden Sie hier.
- Erstellen und konfigurieren Sie das IBAN-Feld, wie hier beschrieben. Erweiterte Richtlinien sind in diesem Abschnitt verfügbar.
- Beschriften Sie ein Trainings-Dataset und ein Auswertungs-Dataset, wie hier beschrieben. Die hier beschriebene Vorbeschriftungsfunktion von Document Manager kann die Beschriftung viel einfacher machen.
- Exportieren Sie zuerst den Auswertungssatz und dann den Trainingssatz in das AI Center, indem Sie sie im Filter-Dropdownmenü oben in der Document Manager-Ansicht auswählen. Weitere Details zu Exporten finden Sie hier.
Als Nächstes erstellen wir unser Modell, trainieren und stellen es bereit.
Da unser Workflow jetzt die Verarbeitung von Rechnungen unterstützt, müssen wir die IBAN aus unseren Rechnungen extrahieren. Das ist ein Feld, das standardmäßig nicht vom out-of-the-box ML-Modell für Rechnungen (Invoices) aufgenommen wird. Das bedeutet, dass wir ein neues Modell erneut trainieren müssen, beginnend mit dem Basismodell.
- Erstellen Sie ein ML-Paket, wie hier beschrieben. Wenn sich Ihr Dokumenttyp von den vorgefertigten unterscheidet, wählen Sie das ML-Paket DocumentUnderstanding aus. Andernfalls verwenden Sie das Paket, das dem zu extrahierenden Dokumenttyp am nächsten ist.
- Erstellen Sie eine Trainingspipeline wie hier beschrieben mithilfe des Eingabe-Datasets, das Sie im vorherigen Abschnitt aus dem Document Manager exportiert haben.
-
Wenn das Training abgeschlossen ist und Sie die Nebenversion 1 des Pakets haben, führen Sie eine Auswertungspipeline für diese Nebenversion aus und überprüfen Sie den Direktvergleich von evaluation.xlsx. Verwenden Sie die detaillierten Richtlinien hier.
- Wenn die Bewertungsergebnisse zufriedenstellend sind, wechseln Sie zur Ansicht für die ML-Fähigkeiten und erstellen Sie eine ML-Fähigkeit mit der neuen Nebenversion des ML-Pakets. Wenn Sie diese für die Vorbeschriftung im Document Manager verwenden möchten, müssen Sie auf die Schaltfläche Aktuelle Bereitstellung ändern rechts oben in der Ansicht für die ML-Fähigkeit klicken und auf ML-Fähigkeit öffentlich machen umschalten.
- Nach der Erstellung der ML-Fähigkeit müssen wir sie nun in Studio nutzen. Der einfachste Weg hierfür ist, die ML-Fähigkeit wie hier beschrieben öffentlich zu machen. Dann müssen Sie nur noch den öffentlichen Endpunkt des ML-Modells Invoices, den wir ursprünglich dem Machine Learning Extractor in unserem Workflow hinzugefügt haben, durch den öffentlichen Endpunkt der ML-Fähigkeit ersetzen.
- Führen Sie den Workflow aus. Sie sollten nun sehen, dass das neu hinzugefügte IBAN-Feld zusammen mit den Standardrechnungen extrahiert wird.
Laden Sie dieses Beispielprojekt unter diesem Link herunter. Sie müssen den Machine Learning Extractor für Rechnungen (Invoices) vom Endpunktmodus in Ihre trainierte ML-Fähigkeit ändern.