- Überblick
- Document Understanding-Prozess
- Schnellstart-Tutorials
- Extrahieren von Daten aus Belegen
- Mit einem zusätzlichen Feld erneut trainierte Rechnungen
- Extrahieren von Daten aus Formularen
- Framework-Komponenten
- Überblick
- Document Understanding-Aktivitäten
- Übersicht zur Dokumentklassifizierung
- „Klassifizierer konfigurieren“-Assistent von Classify Document Scope
- Intelligenter Schlüsselwortklassifizierer
- Schlüsselwortbasierte Classifier (Keyword Based Classifier)
- Machine Learning Classifier
- Generativer Klassifizierer
- Dokumentklassifizierung – verwandte Aktivitäten
- Datenverbrauch
- API-Aufrufe
- ML-Pakete
- Überblick
- Document Understanding – ML-Paket
- DocumentClassifier – ML-Paket
- ML-Pakete mit OCR-Funktionen
- 1040 – ML-Paket
- 1040 Anlage C – ML-Paket
- 1040 Anlage D – ML-Paket
- 1040 Anlage E – ML-Paket
- 1040x – ML-Paket
- 3949a – ML-Paket
- 4506T – ML-Paket
- 709 – ML-Paket
- 941x – ML-Paket
- 9465 – ML-Paket
- 990 – ML-Paket – Vorschau
- ACORD125 – ML-Paket
- ACORD126 – ML-Paket
- ACORD131 – ML-Paket
- ACORD140 – ML-Paket
- ACORD25 – ML-Paket
- Bank Statements – ML-Paket
- BillsOfLading – ML-Paket
- Certificate of Incorporation – ML-Paket
- Certificates of Origin – ML-Paket
- Checks – ML-Paket
- Children Product Certificate – ML-Paket
- CMS1500 – ML-Paket
- EU Declaration of Conformity – ML-Paket
- Financial Statements – ML-Paket
- FM1003 – ML-Paket
- I9 – ML-Paket
- ID Cards – ML-Paket
- Invoices – ML-Paket
- InvoicesChina – ML-Paket
- Rechnungen Hebräisch – ML-Paket
- InvoicesIndia – ML-Paket
- InvoicesJapan – ML-Paket
- Invoices Shipping – ML-Paket
- Packing Lists – ML-Paket
- Passports – ML-Paket
- Gehaltsabrechnungen (Pay slips) – ML-Paket
- Purchase Orders – ML-Paket
- Zahlungsbelege – ML-Paket
- RemittanceAdvices – ML-Paket
- UB04 – ML-Paket
- Utility Bills – ML-Paket
- Vehicle Titles – ML-Paket
- W2 – ML-Paket
- W9 – ML-Paket
- Andere out-of-the-box ML-Pakete
- Öffentliche Endpunkte
- Hardwareanforderungen
- Pipelines
- Dokumentmanager
- OCR-Dienste
- Unterstützte Sprachen
- Deep Learning
- Insights-Dashboards
- Document Understanding – in der Automation Suite bereitgestellt
- Document Understanding – im eigenständigen AI Center bereitgestellt
- Lizenzierung
- Aktivitäten
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Aktivitäten (UiPath.IntelligentOCR.Activities)
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.Omnipage.Activities
- UiPath.PDF.Aktivitäten (UiPath.PDF.Activities)

Document Understanding-Benutzerhandbuch.
Mit einem zusätzlichen Feld erneut trainierte Rechnungen
The aim of this page is to help first time users get familiar with Document UnderstandingTM.
For scalable production deployments, we strongly recommend using the Document Understanding Process available in UiPath® Studio under the Templates section.
Dieser Schnellstart zeigt Ihnen, wie Sie das out-of-the-box ML-Modell Invoices erneut trainieren, um ein weiteres Feld zu extrahieren.
Let’s use the same workflow we used for the receipts in the previous quickstart and modify it so it can support invoices.
Dazu müssen wir in unserem Workflow die folgenden Schritte ausführen:
- Die Taxonomie ändern
- Einen Klassifizierer hinzufügen
- Einen Machine Learning Extractor hinzufügen
- Die Daten beschriften
- Das ML-Modell für Rechnungen (Invoices) erneut trainieren
1. Die Taxonomie ändern
In diesem Schritt müssen wir die Taxonomie ändern, um den Rechnungsdokumenttyp hinzuzufügen.
To do so, open Taxonomy Manager and create group named Semi Structured Documents, a category named Finance, a document type named Invoices. Create the listed fields with user friendly names along with respective data types.
- name (Name) – Text
- vendor-addr (Lieferantenadresse) – Adresse
- billing-name (Rechnungsname) – Text
- billing-address (Rechnungsadresse) – Adresse
- shipping-address (Lieferadresse) – Adresse
- invoice-no (Rechnungsnummer) – Text
- po-no (Auftragsnummer) – Text
- vendor-vat-no (Umsatzsteuer Lieferant) – Text
- date (Datum) – Datum
- tax (Steuer) – Zahl
- total (gesamt) – Zahl
- payment-terms (Zahlungsbedingungen) – Text
- net-amount (Nettosumme) – Zahl
- due-date (Fälligkeitsdatum) – Datum
- Rabatt –
Number - Versandkosten -
Number - payment-addr –
Address - description (Beschreibung) – Text
- items (Posten) – Tabelle
- description (Beschreibung) – Text
- quantity (Menge) – Zahl
- unit-price (Stückpreis) – Zahl
- line-amount (Zeilensumme) – Zahl
- item-po-no –
Text - line-no –
Text - teil-nein –
Text - billing-vat-no (Umsatzsteuernummer) – Text
2. Einen Klassifizierer hinzufügen
In diesem Schritt müssen wir einen Klassifizierer hinzufügen, damit wir sowohl Belege als auch Rechnungen mit unserem Workflow verarbeiten können.
Since our workflow now supports two document types, Receipts and Invoices, we need to add the classifier to differentiate between different document types coming in as input:
- Add a Classify Document Scope after the Digitize Document activity and provide the DocumentPath, DocumentText, DocumentObjectModel, and Taxonomy as input arguments and capture the ClassificationResults in a new variable. We need this variable to check what document(s) we are processing.
- We also need to specify one or more classifiers. In this example, we are using the Intelligent Keyword Classifier. Add it to the Classify Document Scope activity. This page helps you take an educated decision on what classification method you should use in different scenarios.
- Train the classifier as described here.
- Konfigurieren Sie den Klassifizierer, indem Sie ihn für beide Dokumenttypen aktivieren.
- Depending on your usecase, you might want to validate the classification. You can do that using the Present Classification Station or the Create Document Classification Action and Wait For Document Classification Action And Resume activities.
3. Einen Machine Learning Extractor hinzufügen
In this step, we need to add a Machine Learning Extractor to the Data Extraction Scope activity and connect it to the Invoices public endpoint.
Das Verfahren ist genau das gleiche wie bei dem vorherigen Machine Learning Extractor für Belege, den wir zuvor hinzugefügt haben:
-
Fügen Sie neben dem Machine Learning Extractor für Belege die Aktivität Machine Learning Extractor hinzu.
-
Provide the Invoices public endpoint, namely
https://du.uipath.com/ie/invoices, and an API key to the extractor. -
Konfigurieren Sie den Extraktor so, dass er mit Rechnungen arbeitet, indem Sie die im Taxonomiemanager erstellten Felder den im ML-Modell verfügbaren Feldern zuordnen:

-
Do not forget to use the ClassificationResults variable outputted by the Classify Document Scope as input to the Data Extraction Scope, instead of specifying a DocumentTypeId. You should end up with something like this:

-
Führen Sie den Workflow aus, um zu testen, dass er mit Rechnungen ordnungsgemäß funktioniert.
4. Die Daten beschriften
Wir müssen die Daten beschriften, bevor das ML-Basismodell für Invoices erneut trainiert wird, damit es das neue IBAN-Feld unterstützen kann.
- Collect the requirements and sample invoice documents in sufficient volume for the complexity of the usecase you need to solve. Label 50 pages, as explained on this documentation page.
- Gain access to an instance of Document Manager either on premises or in AI Center in the Cloud. Make sure you have the permissions to use Document Manager.
- Erstellen Sie ein AI Center-Projekt, wechseln Sie zu Datenbeschriftung -> UiPath Document Understanding und erstellen Sie eine Datenbeschriftung-Sitzung.
- Configure an OCR Engine as described here, try importing a diverse set of your production documents and make sure that the OCR engine reads the text you need to extract. More suggestions in this section. Only proceed to next step after you have settled on a OCR engine.
- Create a fresh Document Manager session, and import a Training set and an Evaluation set, while making sure to check the Make this a Test set checkbox when importing the Evaluation set. More details about imports here.
- Create and configure the IBAN field as described here. More advanced guidelines are available in this section.
- Label a Training dataset and an Evaluation dataset as described here. The prelabeling feature of Document Manager described here can make the labeling work a lot easier.
- Export first the Evaluation set and then the Training set to AI Center by selecting them from the filter dropdown at the top of the Document Manager view. More details about exports here.
Als Nächstes erstellen wir unser Modell, trainieren und stellen es bereit.
5. Das ML-Modell für Rechnungen (Invoices) erneut trainieren
Da unser Workflow jetzt die Verarbeitung von Rechnungen unterstützt, müssen wir die IBAN aus unseren Rechnungen extrahieren. Das ist ein Feld, das standardmäßig nicht vom out-of-the-box ML-Modell für Rechnungen (Invoices) aufgenommen wird. Das bedeutet, dass wir ein neues Modell erneut trainieren müssen, beginnend mit dem Basismodell.
- Create an ML Package as described here. If your document type is different from the ones available out-of-the-box, then choose the DocumentUnderstanding ML Package. Otherwise, use the package closest to the document type you need to extract.
- Create a Training Pipeline as described here using the Input dataset which you exported in the previous section from Document Manager.
- When the training is done and you have package minor version 1, run an Evaluation Pipeline on this minor version and inspect the evaluation.xlsx side by side comparison. Use the detailed guidelines here.
- If the evaluation results are satisfactory, go to the ML Skills view and create an ML Skill using the new minor version of the ML Package. If you want to use this to do prelabeling in Document Manager, you need to select the Modify Current Deployment button at the top right of the ML Skill view and toggle on the Make ML Skill Public.
- After creating the ML skill, we now need to consume it in Studio. The easiest way to do that is to make the ML Skill public as described here. Then, the only thing left to do is simply replace the Invoices ML model public endpoint that we’ve initially added to the Machine Learning Extractor in our workflow with the public endpoint of the ML Skill.
- Führen Sie den Workflow aus, sodass das neu hinzugefügte IBAN-Feld zusammen mit den Standardrechnungsfeldern extrahiert wird.
Beispiel herunterladen
Download this sample project using this link. You need to change the Machine Learning Extractor for Invoices from Endpoint mode to your trained ML Skill.