- Überblick
- Erste Schritte
- Erstellen von Modellen
- Verbrauchen von Modellen
- Modelldetails
- Öffentliche Endpunkte für Automation Cloud und Test Cloud
- Öffentliche Endpunkte für Automation Cloud und Test Cloud – Öffentlicher Sektor
- 1040 – Dokumententyp
- 1040 Formular C – Dokumententyp
- 1040 Formular D – Dokumententyp
- 1040 Formular E – Dokumententyp
- 1040x – Dokumententyp
- 3949a – Dokumententyp
- 4506T – Dokumententyp
- 709 – Dokumententyp
- 941x – Dokumententyp
- 9465 – Dokumententyp
- ACORD125 – Dokumententyp
- ACORD126 – Dokumententyp
- ACORD131 – Dokumententyp
- ACORD140 – Dokumententyp
- ACORD25 – Dokumententyp
- Kontoauszüge – Dokumententyp
- Frachtbrief – Dokumententyp
- Gründungsurkunde – Dokumententyp
- Ursprungszeugnis – Dokumententyp
- Überprüfungen – Dokumententyp
- Children Product Certificate – Dokumententyp
- CMS 1500 – Dokumententyp
- EU-Konformitätserklärung – Dokumententyp
- Finanzberichte – Dokumententyp
- FM1003 – Dokumententyp
- I9 – Dokumententyp
- Ausweise – Dokumententyp
- Rechnungen – Dokumententyp
- Rechnungen2 – Dokumententyp
- Rechnungen Australien – Dokumententyp
- Rechnungen China – Dokumententyp
- Rechnungen Hebräisch – Dokumententyp
- Rechnungen Indien – Dokumententyp
- Rechnungen Japan – Dokumententyp
- Rechnungen Versand – Dokumententyp
- Packlisten – Dokumententyp
- Gehaltsabrechnungen – Dokumententyp
- Reisepässe – Dokumententyp
- Bestellungen – Dokumententyp
- Zahlungsbelege – Dokumententyp
- Belege2 – Dokumententyp
- Zahlungsbelege Japan – Dokumententyp
- Zahlungsavis – Dokumententyp
- UB04 – Dokumententyp
- Angaben zum Abschluss von Hypotheken in den USA – Dokumententyp
- Betriebskostenabrechnungen – Dokumententyp
- Fahrzeugbrief – Dokumententyp
- W2 – Dokumententyp
- W9 – Dokumententyp
- Unterstützte Sprachen
- Insights-Dashboards
- Daten und Sicherheit
- Protokollierung
- Lizenzierung
- Anleitungen zu …
- Fehlersuche und ‑behebung
Document Understanding-Benutzerhandbuch.
Überblick
Der trainierbare Splitter verwendet das Helix Classifier-Modell, um Pakete mit mehreren Dokumenten zu teilen und zu klassifizieren. Es erkennt Dokumentgrenzen automatisch und weist jedem erkannten Unterdokument einen Dokumenttyp zu.
Das Modell ist nur für Mandanten in Europa und den USA verfügbar.
Diese Funktion wird für Organisationen nicht unterstützt, die Kundenseitig verwaltete Schlüssel (CMK) verwenden. Wenn Ihre Organisation CMK verwendet, ist diese Funktion nicht verfügbar und kann in Ihren Projekteinstellungen nicht aktiviert werden.
Verwendungszweck
Verwenden Sie den trainierbaren Splitter in den folgenden Szenarien:
- Hypothekenanträge: Aufteilen von Paketen mit IDs, Antragsformularen und Kontoauszügen.
- Gesundheitswesen-Onboarding: Überprüfen Sie das Vorhandensein der erforderlichen Dokumente wie medizinische Zertifikate, NPI-Formulare und Ausweise.
- Versicherungsfälle: Separate Antragsformulare, Gesundheitsakten und Belege.
- Rechnungsverarbeitung: Verarbeiten Sie Rechnungspakete mit mehreren Lieferanten.
- Dokumentbereinigung: Entfernen Sie irrelevante Seiten, sodass nur relevante Inhalte weiterverarbeitet werden.
Erstellen eines neuen Projekts
Beim Erstellen eines neuen Projekts können Mandanten in Europa und den USA das neue Splitter- und Klassifizierer-Modell aktivieren. Dieses trainierbare Modell kann darauf trainiert werden, komplexe Dokumente aufzuteilen und zu klassifizieren, sodass Sie Dokumentenpakete verarbeiten können.
Folgen Sie den Anweisungen auf dieser Seite, um ein Document UnderstandingTM- Projekt zu erstellen und das neue Trenn- und Klassifizierermodell zu aktivieren.
Voraussetzungen
Bevor Sie beginnen, stellen Sie sicher, dass die folgenden Bedingungen erfüllt sind:
- Ihr Mandant befindet sich in Europa oder den USA.
- IntelligentOCR.Activities Version 6.27.0 oder höher ist installiert.
- Moderne Projekte sind in Ihrem Automation Cloud-Mandanten aktiviert.
- Sie haben Pakete mit Beispieldokumenten, die für Ihren Produktionsanwendungsfall repräsentativ sind.
-
Öffnen Sie Document Understanding.
-
Wählen Sie Projekt erstellen.
-
Geben Sie den gewünschten Projektnamen ein.
-
Wählen Sie für Automation Cloud und Test Cloud die Option Modern aus, um die moderne Umgebung zu verwenden.
-
Aktivieren Sie den Schalter Neues Splitter- und Klassifizierungsmodell aktivieren.
-
Konfigurieren Sie bei Bedarf Erweiterte Optionen.
- Aktivieren Sie den Umschalter Aufteilung aktivieren , damit das Modell Dokumente vor der Klassifizierung in einzelne Dateien aufteilen kann. Sie können diese Option auch über den Bildschirm Projekteinstellungen aktivieren.
Wichtig:
Wenn die Option Aufteilung aktivieren deaktiviert ist, wird das Modell nur im Klassifizierungsmodus ausgeführt:
- Die Oberfläche für die Aufteilungsanmerkung ist nicht verfügbar.
- Dokumente können nicht manuell aufgeteilt werden.
- Laden Sie für Trainingszwecke einseitige oder mehrseitige Dokumente des gleichen Typs hoch.
- Alle anderen Funktionalitäten bleiben unverändert.
- Wählen Sie die OCR-Methode von der Dropdownliste OCR-Methode aus.
- Geben Sie den OCR-API-Schlüssel ein.
Hinweis:
Dieses Feld wird automatisch ausgefüllt, wenn Sie eine UiPath®-OCR auswählen.
- Geben Sie die OCR-URL ein. Die vollständige Liste der URLs für UiPath-OCRs finden Sie auf der Seite Öffentliche Endpunkte .
- Wählen Sie aus, ob OCR auf PDF-Dateien angewendet werden soll . Der Standardwert ist Auto.
- Aktivieren Sie den Umschalter Aufteilung aktivieren , damit das Modell Dokumente vor der Klassifizierung in einzelne Dateien aufteilen kann. Sie können diese Option auch über den Bildschirm Projekteinstellungen aktivieren.
-
Wählen Sie Erstellen.

Ergebnis
Ihr Projekt wird erstellt. Der Abschnitt Erstellen wird verfügbar, wo Sie Dokumente zur Extraktion oder Klassifizierung hochladen können.
Wählen Sie eine der beiden verfügbaren Optionen aus:
- Daten aus Dokumenten extrahieren: Extrahiert bestimmte Felder aus Ihren Dokumenten, wie Rechnungsnummern, Daten und Gesamtbeträge. Verwenden Sie diese Option, wenn Sie Felder aus Dokumenten extrahieren müssen.
- Dokumente klassifizieren und aufteilen: Sortiert Dokumente nach Typ und trennt mehrere Dokumente innerhalb einer einzigen Datei. Verwenden Sie diese Option, wenn Sie Dokumente aufteilen und klassifizieren müssen.
Daten aus Dokumenten extrahieren
- Wählen Sie einen Dokumenttyp aus.
- Wählen Sie Hochladen aus oder ziehen Sie Ihre Dateien per Drag-and-Drop in den neuen Dokumenttyp. Warten Sie, bis der Upload abgeschlossen ist.
Dokumente klassifizieren und aufteilen
Bestimmte komplexe Dateien enthalten mehrere Dokumenttypen. Der trainierbare Splitter erkennt, wo jedes Unterdokument beginnt und endet, und klassifiziert jeden Abschnitt entsprechend.
- Wählen Sie Dokumente klassifizieren und aufteilen aus.
- Laden Sie Ihre Dokumentenpakete hoch. Warten Sie, bis der Upload und die Verarbeitung fertig gestellt sind.
- Wählen Sie ein Dokument im Abschnitt Upload aus.
- Wählen Sie Aufteilen aus. Die Oberfläche zur Aufteilung der Anmerkung wird geöffnet.
Hinweis:
Wenn das Projekt bereits über ein trainiertes Modell verfügt, werden hochgeladene Dokumente mit diesem Modell vorab kommentiert. Dies beschleunigt das Hinzufügen von Anmerkungen und ermöglicht es Ihnen, die Vorhersageergebnisse für neue Dokumente zu überprüfen.
- Wählen Sie Neuer Dokumenttyp aus, um für jedes Element in Ihrer Taxonomie einen Dokumenttyp zu erstellen. Wählen Sie einen vordefinierten Dokumenttyp aus oder erstellen Sie einen benutzerdefinierten. Geben Sie für benutzerdefinierte Dokumenttypen Folgendes an:
- Name: Ein klarer, beschreibender Name für den Dokumenttyp.
- Beschreibung: Ein bis drei Sätze, in denen der Zweck des Dokuments erläutert wird und was es von ähnlichen Typen unterscheidet.
- Schlüsselindikatoren: Durch Kommas getrennte Felder oder Begriffe, die diesen Dokumenttyp eindeutig identifizieren. Beschreibungen und Schlüsselindikatoren wirken sich direkt auf die Modellgenauigkeit aus. Wenn Klassifizierungspunktzahlen niedrig sind, optimieren Sie die Beschreibungen, bevor Sie weitere Trainingsdaten hinzufügen. Beispiel für einen Rechnungsdokumenttyp:
- Beschreibung: Eine formelle Zahlungsanforderung, die von einem Verkäufer an einen Käufer gestellt wird und in der die Positionen, Mengen und Gesamtbeträge aufgeführt sind, die fällig sind.
- Schlüsselindikatoren: Rechnungsnummer, Rechnungsdatum, Gesamtbetrag, Verkäuferinformationen, Käuferinformationen, Zahlungsbedingungen. Tipps zum Verfassen effektiver Beschreibungen:
- Fügen Sie für den Dokumenttyp spezifische Terminologie ein.
- Wenn zwei Dokumenttypen häufig verwechselt werden, fügen Sie beiden Beschreibungen Unterscheidungsdetails hinzu.
- Weisen Sie Seiten, die nicht für die Weiterverarbeitung benötigt werden, dem unbekannten Typ zu. Dazu gehören Titelseiten, leere Seiten und Trennblätter. Das Modell sagt diese Seiten zur Laufzeit als Unbekannt vorher.
- Wählen Sie die Grenzen zwischen Dokumenttypen aus, um anzugeben, wo die einzelnen Dokumente beginnen und enden.
- Weisen Sie jeden Seitenbereich über das Dropdown-Menü einem Dokumenttyp zu.
- Wählen Sie Bestätigen aus, wenn Sie mit dem Kommentieren des Dokuments fertig sind.
Ergebnis
Jedes Unterdokument wird unter dem entsprechenden Dokumenttyp im Abschnitt Erstellen angezeigt. Jedes Unterdokument wird mit dem Schema des zugewiesenen Dokumenttyps vorab kommentiert.
Bewährte Trainingsmethoden
Trainieren Sie auf originalen, unaufgeteilten Dokumentpaketen aus der Produktion – nicht auf voraufgeteilten einzelnen Dokumenten.
Das Modell lernt Dokumentenbündelungsmuster aus dem Kontext um jeden Dokumenttyp: was in einem echten Paket davor und danach erscheint. Das Training an vorab aufgeteilten Dokumenten entfernt diesen Kontext und reduziert die Aufteilungsgenauigkeit.
Empfohlener Ansatz:
- Laden Sie Pakete aus der Produktion hoch, die mehrere Dokumenttypen enthalten.
- Fügen Sie Pakete ein, die den Bereich der Reihenfolgen und Dokumentanzahlen darstellen, die in der Produktion zu sehen sind.
- Streben Sie ein ausgewogenes Dataset über alle Dokumenttypen hinweg an.
Hinweis:
Training für vorab aufgeteilte Dokumente erzeugt ein funktionierendes Modell, aber die Aufteilungsgenauigkeit ist geringer als beim Training für ursprüngliche Pakete.
Modelltraining
Das Modelltraining beginnt automatisch, nachdem die beiden folgenden Bedingungen erfüllt sind:
- Mindestens fünf Unterdokumente wurden erstellt und mit Anmerkungen versehen sein.
Hinweis:
Wenn Sie beispielsweise eine einzelne PDF-Datei verwenden, muss diese mindestens fünf Unterdokumente enthalten. Wenn Sie zwei PDF-Dokumente verwenden, muss eines mindestens zwei Unterdokumente und das andere mindestens drei enthalten.
- Ein Dokument wurde bestätigt.
Der Trainingsstatus wird in der oberen rechten Ecke des Klassifizierungsbereichs angezeigt.
Trainingsdatenanforderungen
| Anforderungen | Details |
|---|---|
| Mindestanzahl an Dokumenttypen | 1 |
| Mindestanzahl an Proben insgesamt | 5 Dokumente über alle Dokumenttypen hinweg |
| Mindestproben pro Typ | 1 |
| Empfohlen für zuverlässige Ergebnisse | 50 bis 100 Pakete |
| Maximale Dokumentgröße | 160 MB oder 500 Seiten |
| Aufteilung von Training/Test | Automatisch: 80 % Training, 20 % Test |
Verbesserung der Trainingsergebnisse
Wenn die Leistung Sie nicht zufriedenstellt, verwenden Sie einen dieser Ansätze:
- Verfeinern Sie die Beschreibungen und Schlüsselindikatoren leistungsschwacher Dokumenttypen.
- Fügen Sie weitere Trainingsbeispiele für Dokumenttypen mit geringer Genauigkeit hinzu.
Aufteilungs- und Klassifizierungsvorhersagen
Immer wenn ein neues Modell trainiert wird, erhalten alle Dokumente im Projekt Vorhersagen vom trainierten Modell. Damit können Sie die Leistung des Klassifizierungsmodells überprüfen.
Die Spalte Typ zeigt die Ground Truth an – den Dokumenttyp mit Anmerkungen. Die Spalte Vorhergesagter Typ zeigt den vom Modell vorhergesagten Typ an.
Standardmäßig werden nur Dokumentpakete angezeigt. Um Unterdokumente innerhalb jedes Pakets anzuzeigen, wählen Sie Anzeigen aus und aktivieren Sie Unterdokumente einbeziehen.
Vorhersagen sind auch auf der Anmerkungsoberfläche verfügbar, indem der Umschalter Vorhersage anzeigen aktiviert wird.
Metriken verstehen
Wählen Sie die Registerkarte Messen aus, um die Modellleistung zu überprüfen.
| Metrik | Was gemessen wird | Was zu tun ist, wenn die Werte niedrig sind |
|---|---|---|
| Aufteilen von F1 | Genauigkeit der Erkennung der Dokumentgrenzen, unabhängig von der Klassifizierung | Trainingsdaten mit vielfältigeren Grenzbeispielen hinzufügen |
| Klassifizierung F1 | Genauigkeit der Zuweisung des Dokumenttyps, unabhängig von Grenzen | Fügen Sie weitere Trainingsseiten für Dokumenttypen mit geringer Leistung hinzu |
| Insgesamt F1 | Kombinierter Score: Grenze und Zuweisung vom Typ müssen beide korrekt sein | Identifizieren Sie, ob die Aufteilung oder Klassifizierung niedriger ist, und kümmern Sie sich zuerst darum |
Ein Unterdokument zählt nur als korrekt, wenn sowohl die Grenzerkennung als auch die Typzuweisung korrekt sind.
Große Dokumente mit vielen unbekannten Seiten im Testsatz können die Punktzahlen unverhältnismäßig senken. Wenn die Punktzahlen unerwartet niedrig erscheinen, überprüfen Sie, ob Ausreißerdokumente den Testsatz verzerren.
Verbrauch des Modells zur Runtime
Über IntelligentOCR-Aktivitäten
Verwenden Sie die Aktivität Document Understanding Project Classifier aus dem Paket IntelligentOCR. Wenn die Aufteilung im Projekt aktiviert ist, gibt die Aktivität mehrere Klassifizierungsergebnisse zurück – eines pro erkanntem Unterdokument. Durchlaufen Sie die Ergebnisse, um die Validierung oder Extraktion für jedes Unterdokument durchzuführen.
Über DocumentUnderstanding-Aktivitäten
Verwenden Sie die Aktivität Classify Document .
Über API
Verwenden Sie den classify Endpunkt. Wenn die Aufteilung in der Projektversion aktiviert ist, führt der Endpunkt eine Aufteilung durch und gibt Klassifizierungsergebnisse für jedes identifizierte Unterdokument zurück.
Importieren und Exportieren
Exportieren eines trainierten Modelldatensatzes
Wenn eine Projektversion einen trainierten Splitter-Klassifizierer enthält, stehen zwei Exportoptionen zur Verfügung:
- Dokumenttyp-Dataset-Export: Standardexport von Daten mit Anmerkungen.
- Splitter- und Klassifizierer-Export: Vollständiger Projektexport einschließlich des trainierten Modells.
Nur Projektversionen mit einem trainierten Bereichsklassifizierer werden in der Dropdownliste Verteiler- und Klassifiziererexport angezeigt.
Importieren in ein neues Projekt
Die Importoption ist auf der leeren Klassifizierungsseite verfügbar. Beim Importieren einer ZIP-Datei werden Dokumente ihren Dokumenttypen zugewiesen und das Training automatisch ausgelöst.
Einschränkungen
- Nur in Mandanten in Europa und den USA verfügbar.
- In der Anmerkungsoberfläche lassen sich Seiten nicht neu anordnen oder löschen.
- Informationen zum Aufteilen sind auf der Seite Überwachen nicht verfügbar.
- Das Action Center unterstützt das erneute Training für Aufteilungs- und Klassifizierungsmodelle nicht.
- Überblick
- Verwendungszweck
- Erstellen eines neuen Projekts
- Daten aus Dokumenten extrahieren
- Dokumente klassifizieren und aufteilen
- Bewährte Trainingsmethoden
- Modelltraining
- Aufteilungs- und Klassifizierungsvorhersagen
- Metriken verstehen
- Verbrauch des Modells zur Runtime
- Importieren und Exportieren
- Einschränkungen