- Überblick
- Erste Schritte
- Erstellen von Modellen
- Verbrauchen von Modellen
- Modelldetails
- Öffentliche Endpunkte
- 1040 – Dokumententyp
- 1040 Formular C – Dokumententyp
- 1040 Formular D – Dokumententyp
- 1040 Formular E – Dokumententyp
- 1040x – Dokumententyp
- 3949a – Dokumententyp
- 4506T – Dokumententyp
- 709 – Dokumententyp
- 941x – Dokumententyp
- 9465 – Dokumententyp
- ACORD125 – Dokumententyp
- ACORD126 – Dokumententyp
- ACORD131 – Dokumententyp
- ACORD140 – Dokumententyp
- ACORD25 – Dokumententyp
- Kontoauszüge – Dokumententyp
- Frachtbrief – Dokumententyp
- Gründungsurkunde – Dokumententyp
- Ursprungszeugnis – Dokumententyp
- Überprüfungen – Dokumententyp
- Children Product Certificate – Dokumententyp
- CMS 1500 – Dokumententyp
- EU-Konformitätserklärung – Dokumententyp
- Finanzberichte – Dokumententyp
- FM1003 – Dokumententyp
- I9 – Dokumententyp
- Ausweise – Dokumententyp
- Rechnungen – Dokumententyp
- Rechnungen2 – Dokumententyp
- Rechnungen Australien – Dokumententyp
- Rechnungen China – Dokumententyp
- Rechnungen Hebräisch – Dokumententyp
- Rechnungen Indien – Dokumententyp
- Rechnungen Japan – Dokumententyp
- Rechnungen Versand – Dokumententyp
- Packlisten – Dokumententyp
- Gehaltsabrechnungen – Dokumententyp
- Reisepässe – Dokumententyp
- Bestellungen – Dokumententyp
- Zahlungsbelege – Dokumententyp
- Belege2 – Dokumententyp
- Zahlungsbelege Japan – Dokumententyp
- Zahlungsavis – Dokumententyp
- UB04 – Dokumententyp
- Angaben zum Abschluss von Hypotheken in den USA – Dokumententyp
- Betriebskostenabrechnungen – Dokumententyp
- Fahrzeugbrief – Dokumententyp
- W2 – Dokumententyp
- W9 – Dokumententyp
- Unterstützte Sprachen
- Insights-Dashboards
- Daten und Sicherheit
- Protokollierung
- Lizenzierung
- Anleitungen zu …
- Fehlersuche und ‑behebung

Document Understanding-Benutzerhandbuch für moderne Projekte
Der trainierbare Teiler verwendet das Helix Classifier Modell, um Pakete mit mehreren Dokumenten aufzuteilen und zu klassifizieren. Es erkennt Dokumentgrenzen automatisch und weist jedem erkannten Unterdokument einen Dokumenttyp zu.
Das Modell ist nur für Mandanten in Europa und in den USA verfügbar.
Verwenden Sie den trainierbaren Teiler in den folgenden Szenarien:
- Hypothekenanträge: Aufteilen von Paketen mit IDs, Antragsformularen und Kontoauszügen.
- Gesundheitswesen-Onboarding: Überprüfen Sie das Vorhandensein der erforderlichen Dokumente wie medizinische Zertifikate, NPI-Formulare und Ausweise.
- Versicherungsfälle: Separate Antragsformulare, Gesundheitsakten und Belege.
- Rechnungsverarbeitung: Verarbeiten Sie Rechnungspakete mit mehreren Lieferanten.
- Dokumentbereinigung: Entfernen Sie irrelevante Seiten, sodass nur relevante Inhalte weiterverarbeitet werden.
Beim Erstellen eines neuen Projekts können Mandanten in Europa und in den USA das neue Trenn- und Klassifizierermodell aktivieren. Dieses trainierbare Modell kann trainiert werden, um komplexe Dokumente aufzuteilen und zu klassifizieren, sodass Sie Dokumentpakete verarbeiten können.
Folgen Sie den Anweisungen auf dieser Seite, um ein Document UnderstandingTM- Projekt zu erstellen und das neue Trenn- und Klassifizierermodell zu aktivieren.
Voraussetzungen
Bevor Sie beginnen, stellen Sie sicher, dass die folgenden Bedingungen erfüllt sind:
- Ihr Mandant befindet sich in Europa oder in den USA.
- IntelligentOCR.Activities-Version 6.27.0 oder höher muss installiert sein.
- Moderne Projekte ist in Ihrem Automation Cloud-Mandanten aktiviert.
- Sie verfügen über Beispieldokumentpakete, die für Ihren Anwendungsfall in der Produktion repräsentativ sind.
- Öffnen Sie Document Understanding.
- Wählen Sie Projekt erstellen aus.
- Geben Sie den gewünschten Projektnamen ein.
- Wählen Sie Modern aus, um die moderne Umgebung zu verwenden.
- Konfigurieren Sie bei Bedarf Erweiterte Optionen.
- Aktivieren Sie den Umschalter Aufteilung aktivieren , damit das Modell Dokumente vor der Klassifizierung in einzelne Dateien aufteilen kann. Sie können diese Option auch über den Bildschirm Projekteinstellungen aktivieren.
Wichtig: Wenn die Option Aufteilung aktivieren deaktiviert ist, wird das Modell nur im Klassifizierungsmodus ausgeführt:
- Die Oberfläche zum Aufteilen von Anmerkungen ist nicht verfügbar.
- Dokumente können nicht manuell aufgeteilt werden.
- Laden Sie für das Training einseitige oder mehrseitige Dokumente desselben Typs hoch.
- Alle anderen Funktionen bleiben unverändert.
- Wählen Sie die OCR-Methode von der Dropdownliste OCR-Methode aus.
- Geben Sie den OCR-API-Schlüssel ein.
Hinweis: Dieses Feld wird automatisch ausgefüllt, wenn Sie eine UiPath®- OCR auswählen.
- Geben Sie die OCR-URL ein. Die vollständige Liste der URLs für UiPath-OCRs finden Sie auf der Seite Öffentliche Endpunkte .
- Wählen Sie aus, ob OCR auf PDF-Dateien angewendet werden soll . Der Standardwert ist Auto.
- Aktivieren Sie den Umschalter Aufteilung aktivieren , damit das Modell Dokumente vor der Klassifizierung in einzelne Dateien aufteilen kann. Sie können diese Option auch über den Bildschirm Projekteinstellungen aktivieren.
- Wählen Sie Erstellen.
Ergebnis
Ihr Projekt wird erstellt. Der Abschnitt Erstellen wird verfügbar, wo Sie Dokumente zur Extraktion oder Klassifizierung hochladen können.
Wählen Sie eine der beiden verfügbaren Optionen aus:
- Daten aus Dokumenten extrahieren: Extrahiert bestimmte Felder aus Ihren Dokumenten, wie Rechnungsnummern, Daten und Gesamtbeträge. Verwenden Sie diese Option, wenn Sie Felder aus Dokumenten extrahieren müssen.
- Dokumente klassifizieren und aufteilen: Sortiert Dokumente nach Typ und trennt mehrere Dokumente innerhalb einer einzigen Datei. Verwenden Sie diese Option, wenn Sie Dokumente aufteilen und klassifizieren müssen.
- Wählen Sie einen Dokumenttyp aus.
- Wählen Sie Hochladen aus oder ziehen Sie Ihre Dateien per Drag-and-Drop in den neuen Dokumenttyp. Warten Sie, bis der Upload abgeschlossen ist.
Bestimmte komplexe Dateien enthalten mehrere Dokumenttypen. Der trainierbare Teiler erkennt, wo die einzelnen Unterdokumente beginnen und enden, und klassifiziert die einzelnen Abschnitte entsprechend.
- Wählen Sie Dokumente klassifizieren und aufteilen aus.
- Laden Sie Ihre Dokumentpakete hoch. Warten Sie, bis der Upload und die Verarbeitung abgeschlossen sind.
- Wählen Sie ein Dokument aus dem Abschnitt zum Hochladen aus.
- Wählen Sie Aufteilen aus. Die Oberfläche zur Aufteilung der Anmerkung wird geöffnet.
Hinweis: Wenn das Projekt bereits über ein trainiertes Modell verfügt, werden hochgeladene Dokumente mit diesem Modell vorab kommentiert. Dies beschleunigt das Hinzufügen von Anmerkungen und ermöglicht es Ihnen, die Vorhersageergebnisse für neue Dokumente zu überprüfen.
- Wählen Sie Neuer Dokumenttyp aus, um für jedes Element in Ihrer Taxonomie einen Dokumenttyp zu erstellen. Wählen Sie einen vordefinierten Dokumenttyp aus oder erstellen Sie einen benutzerdefinierten.
Geben Sie für benutzerdefinierte Dokumenttypen Folgendes an:
- Name: Ein klarer, beschreibender Name für den Dokumenttyp.
- Beschreibung: Ein bis drei Sätze, in denen der Zweck des Dokuments erläutert wird und was es von ähnlichen Typen unterscheidet.
- Schlüsselindikatoren: Durch Kommas getrennte Felder oder Begriffe, die diesen Dokumenttyp eindeutig identifizieren.
Beschreibungen und Schlüsselindikatoren wirken sich direkt auf die Modellgenauigkeit aus. Wenn Klassifizierungspunktzahlen niedrig sind, optimieren Sie die Beschreibungen, bevor Sie weitere Trainingsdaten hinzufügen.
Beispiel für einen Rechnungsdokumenttyp:
- Beschreibung: Eine formelle Zahlungsanforderung, die von einem Verkäufer an einen Käufer gestellt wird und in der die Positionen, Mengen und Gesamtbeträge aufgeführt sind, die fällig sind.
- Schlüsselindikatoren: Rechnungsnummer, Rechnungsdatum, Gesamtbetrag, Verkäuferinformationen, Käuferinformationen, Zahlungsbedingungen
Tipps zum Verfassen effektiver Beschreibungen:
- Schließen Sie eine für den Dokumenttyp spezifische Terminologie ein.
- Wenn zwei Dokumenttypen häufig verwechselt werden, fügen Sie beiden Beschreibungen unterschiedliche Details hinzu.
- Weisen Sie Seiten, die nicht für die Weiterverarbeitung benötigt werden, dem unbekannten Typ zu. Dazu gehören Titelseiten, leere Seiten und Trennblätter. Das Modell sagt diese Seiten zur Laufzeit als Unbekannt vorher.
- Wählen Sie die Grenzen zwischen den Dokumenttypen aus, um anzugeben, wo jedes Dokument beginnt und endet.
- Weisen Sie jeden Seitenbereich mithilfe des Dropdownmenüs einem Dokumenttyp zu.
- Wählen Sie Bestätigen aus, wenn Sie mit dem Kommentieren des Dokuments fertig sind.
Ergebnis
Jedes Unterdokument wird unter dem entsprechenden Dokumenttyp im Abschnitt Erstellen angezeigt. Jedes Unterdokument wird mit dem Schema des zugewiesenen Dokumenttyps vorab kommentiert.
Trainieren Sie auf ursprünglichen, ungeteilten Produktionsdokumentpaketen – nicht auf vorab aufgeteilten einzelnen Dokumenten.
Das Modell lernt Dokumentbündelungsmuster aus dem Kontext um jeden Dokumenttyp: was in einem echten Paket vor und nach ihm erscheint. Das Training für vorab aufgeteilte Dokumente entfernt diesen Kontext und verringert die Genauigkeit der Aufteilung.
Empfohlener Ansatz:
- Laden Sie Produktionspakete hoch, die mehrere Dokumenttypen enthalten.
- Fügen Sie Pakete ein, die den Bereich der Aufträge und Dokumentenanzahl in der Produktion darstellen.
- Ziel ist ein ausgewogenes Dataset für alle Dokumenttypen.
Das Modelltraining beginnt automatisch, nachdem beide der folgenden Bedingungen erfüllt sind:
- Mindestens fünf Unterdokumente wurden erstellt und mit Anmerkungen versehen.
Hinweis: Wenn Sie beispielsweise eine einzelne PDF-Datei verwenden, muss diese mindestens fünf Unterdokumente enthalten. Wenn Sie zwei PDF-Dokumente verwenden, muss eines mindestens zwei Unterdokumente und das andere mindestens drei enthalten.
- Ein Dokument wurde bestätigt.
Der Trainingsstatus wird in der oberen rechten Ecke des Klassifizierungsbereichs angezeigt.
Anforderungen an Trainingsdaten
| Anforderungen | Details |
|---|---|
| Mindestdokumenttypen | 1 |
| Minimale Gesamtanzahl der Beispiele | 5 Dokumente für alle Dokumenttypen |
| Mindestbeispiele pro Typ | 1 |
| Empfohlen für zuverlässige Ergebnisse | 50 bis 100 Pakete |
| Maximale Dokumentgröße | 160 MB oder 500 Seiten |
| Aufteilung von Training/Test | Automatisch: 80 % Training, 20 % Test |
Verbesserung der Trainingsergebnisse
Wenn die Leistung nicht zufriedenstellend ist, verwenden Sie einen dieser Ansätze:
- Optimieren Sie die Beschreibungen und Schlüsselindikatoren für Dokumenttypen mit unzureichender Leistung.
- Fügen Sie weitere Trainingsbeispiele für Dokumenttypen mit geringer Genauigkeit hinzu.
Jedes Mal, wenn ein neues Modell trainiert wird, erhalten alle Dokumente im Projekt Vorhersagen vom trainierten Modell. Dadurch können Sie die Leistung des Klassifizierungsmodells überprüfen.
Die Spalte Typ zeigt die Ground Truth an – den Dokumenttyp mit Anmerkungen. Die Spalte Vorhergesagter Typ zeigt den vom Modell vorhergesagten Typ an.
Standardmäßig werden nur Dokumentpakete angezeigt. Um Unterdokumente innerhalb jedes Pakets anzuzeigen, wählen Sie Anzeigen aus und aktivieren Sie Unterdokumente einbeziehen.
Vorhersagen sind auch auf der Anmerkungsoberfläche verfügbar, indem der Umschalter Vorhersage anzeigen aktiviert wird.
Wählen Sie die Registerkarte Messen aus, um die Modellleistung zu überprüfen.
| Metrik | Was gemessen wird | Was zu tun ist, wenn er niedrig ist |
|---|---|---|
| Aufteilung von F1 | Genauigkeit der Dokumentgrenzenerkennung, unabhängig von der Klassifizierung | Fügen Sie Trainingsdaten mit vielfältigeren Grenzbeispielen hinzu |
| Klassifizierung F1 | Genauigkeit der Dokumenttypzuweisung, unabhängig von Grenzen | Fügen Sie weitere Trainingsseiten für Dokumenttypen mit unzureichender Leistung hinzu |
| Insgesamt F1 | Kombinierte Bewertung: Grenze und Typzuweisung müssen korrekt sein | Ermitteln Sie, ob die Aufteilung oder Klassifizierung niedriger ist, und beheben Sie zuerst dieses Problem |
Ein Unterdokument wird nur dann als korrekt gezählt, wenn sowohl die Grenzerkennung als auch die Typzuweisung korrekt sind.
Über IntelligentOCR-Aktivitäten
Verwenden Sie die Aktivität Document Understanding Project Classifier aus dem Paket IntelligentOCR. Wenn die Aufteilung im Projekt aktiviert ist, gibt die Aktivität mehrere Klassifizierungsergebnisse zurück – eines pro erkanntem Unterdokument. Durchlaufen Sie die Ergebnisse, um die Validierung oder Extraktion für jedes Unterdokument durchzuführen.
Über DocumentUnderstanding-Aktivitäten
Verwenden Sie die Aktivität Classify Document .
Über die API
classify -Endpunkt. Wenn die Aufteilung in der Projektversion aktiviert ist, führt der Endpunkt die Aufteilung durch und gibt Klassifizierungsergebnisse für jedes identifizierte Unterdokument zurück.
Exportieren eines trainierten Modell-Datasets
Wenn eine Projektversion einen trainierten geteilten Klassifizierer enthält, stehen zwei Exportoptionen zur Verfügung:
- Dokumenttyp-Dataset-Export: Standardexport von Daten mit Anmerkungen.
- Splitter- und Klassifizierer-Export: Vollständiger Projektexport einschließlich des trainierten Modells.
Nur Projektversionen mit einem trainierten Bereichsklassifizierer werden in der Dropdownliste Verteiler- und Klassifiziererexport angezeigt.
Importieren in ein neues Projekt
Die Importoption ist auf der leeren Klassifizierungsseite verfügbar. Beim Importieren einer ZIP-Datei werden Dokumente ihren Dokumenttypen zugewiesen und das Training automatisch ausgelöst.
- Nur für Mandanten in Europa und in den USA verfügbar.
- Seiten können in der Anmerkungsoberfläche nicht neu angeordnet oder gelöscht werden.
- Aufteilung von Informationen ist auf der Seite Überwachen nicht verfügbar.
- Erneutes Training aus dem Action Center wird für Aufteilungs- und Klassifizierungsmodelle nicht unterstützt.
- Überblick
- Verwendungszweck
- Erstellen eines neuen Projekts
- Daten aus Dokumenten extrahieren
- Dokumente klassifizieren und aufteilen
- Best Practices für Training
- Modelltraining
- Aufteilungs- und Klassifizierungsvorhersagen
- Metriken verstehen
- Verbrauchen des Modells zur Laufzeit
- Importieren und Exportieren
- Einschränkungen