Document Understanding – Trainierbarer Splitter (Vorschau)

document-understanding

latest

false

Document Understanding-Benutzerhandbuch.

Wichtig :

Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.

Trainierbarer Splitter (Vorschau)

Konfigurieren Sie den trainierbaren Splitter in Document Understanding, um Dokumentgrenzen zu erkennen und Dokumenttypen in Paketen mit mehreren Dokumenten zuzuweisen.

Überblick

Der trainierbare Splitter verwendet das Helix Classifier-Modell, um Pakete mit mehreren Dokumenten zu teilen und zu klassifizieren. Es erkennt Dokumentgrenzen automatisch und weist jedem erkannten Unterdokument einen Dokumenttyp zu.

Das Modell ist nur für Mandanten in Europa und den USA verfügbar.

Wichtig:

Diese Funktion unterstützt nur von einem Anbieter verwaltete Schlüssel. Kundenseitig verwaltete Schlüssel (CMK) können nicht verwendet werden, um Daten für diese Funktion zu verschlüsseln, auch wenn CMK auf Organisationsebene aktiviert ist.

Verwendungszweck

Verwenden Sie den trainierbaren Splitter in den folgenden Szenarien:

Hypothekenanträge: Geteilte Pakete mit IDs, Antragsformularen und Kontoauszügen.
Onboarding im Gesundheitswesen: Überprüfen Sie, ob die erforderlichen Dokumente wie medizinische Zertifikate, NPI-Formulare und Ausweise vorhanden sind.
Versicherungsanfragen: Separate Antragsformulare, Krankenakten und Belege.
Rechnungsverarbeitung: Verarbeiten Sie Rechnungspakete von mehreren Lieferanten.
Dokumentenbereinigung: Entfernen Sie irrelevante Seiten, sodass nur relevante Inhalte im Anschluss verarbeitet werden.

Erstellen eines neuen Projekts

Beim Erstellen eines neuen Projekts können Mandanten in Europa und den USA das neue Splitter- und Klassifizierer-Modell aktivieren. Dieses trainierbare Modell kann darauf trainiert werden, komplexe Dokumente aufzuteilen und zu klassifizieren, sodass Sie Dokumentenpakete verarbeiten können.

Folgen Sie den Anweisungen auf dieser Seite, um ein Document Understanding^TM- Projekt zu erstellen und das neue Trenn- und Klassifizierermodell zu aktivieren.

Voraussetzungen

Bevor Sie beginnen, stellen Sie sicher, dass die folgenden Bedingungen erfüllt sind:

Ihr Mandant befindet sich in Europa oder den USA.
IntelligentOCR.Activities Version 6.27.0 oder höher ist installiert.
Moderne Projekte sind in Ihrem Automation Cloud-Mandanten aktiviert.
Sie haben Pakete mit Beispieldokumenten, die für Ihren Produktionsanwendungsfall repräsentativ sind.

Öffnen Sie Document Understanding.
Wählen Sie Projekt erstellen aus.
Geben Sie den gewünschten Projektnamen ein.
Wählen Sie für Automation Cloud und Test Cloud die Option Modern aus, um die moderne Version zu nutzen.
Aktivieren Sie den Schalter Neues Splitter- und Klassifizierungsmodell aktivieren.
Konfigurieren Sie bei Bedarf Erweiterte Optionen.
1. Aktivieren Sie den Umschalter Aufteilung aktivieren , damit das Modell Dokumente vor der Klassifizierung in einzelne Dateien aufteilen kann. Sie können diese Option auch über den Bildschirm Projekteinstellungen aktivieren.
  Wichtig:
  Wenn die Option Aufteilung aktivieren deaktiviert ist, wird das Modell im Modus „Nur Klassifizierung“ ausgeführt:
  - Die Oberfläche für die Aufteilungsanmerkung ist nicht verfügbar.
  - Dokumente können nicht manuell aufgeteilt werden.
  - Laden Sie für Trainingszwecke einseitige oder mehrseitige Dokumente des gleichen Typs hoch.
  - Alle anderen Funktionalitäten bleiben unverändert.
2. Wählen Sie die OCR-Methode aus der Dropdownliste OCR-Methode aus.
3. Geben Sie den OCR-API-Schlüssel ein.
  Hinweis:
  Dieses Feld wird automatisch ausgefüllt, wenn Sie eine UiPath®-OCR auswählen.
4. Geben Sie die OCR-URL ein. Die vollständige Liste der URLs für UiPath-OCRs finden Sie auf der Seite Öffentliche Endpunkte .
5. Wählen Sie aus, ob OCR auf PDF-Dateien angewendet werden soll. Der Standardwert ist Auto.
Wählen Sie Erstellen.

Ergebnis

Ihr Projekt wird erstellt. Der Abschnitt Erstellen wird verfügbar, in dem Sie Dokumente zur Extraktion oder Klassifizierung hochladen können.

Wählen Sie eine der beiden verfügbaren Optionen aus:

Daten aus Dokumenten extrahieren: Ruft bestimmte Felder aus Ihren Dokumenten ab, z. B. Rechnungsnummern, Daten und Gesamtbeträge. Verwenden Sie diese Option, wenn Sie Felder aus Dokumenten extrahieren müssen.
Dokumente klassifizieren und aufteilen: Sortiert Dokumente nach Typ und trennt mehrere Dokumente innerhalb einer einzigen Datei. Verwenden Sie diese Option, wenn Sie Dokumente aufteilen und klassifizieren müssen.

Daten aus Dokumenten extrahieren

Wählen Sie einen Dokumenttyp aus.
Wählen Sie Hochladen aus oder ziehen Sie Ihre Dateien per Drag-and-Drop in den neuen Dokumenttyp. Warten Sie, bis der Upload abgeschlossen ist.

Dokumente klassifizieren und aufteilen

Bestimmte komplexe Dateien enthalten mehrere Dokumenttypen. Der trainierbare Splitter erkennt, wo jedes Unterdokument beginnt und endet, und klassifiziert jeden Abschnitt entsprechend.

Wählen Sie Dokumente klassifizieren und aufteilen.
Laden Sie Ihre Dokumentenpakete hoch. Warten Sie, bis der Upload und die Verarbeitung fertig gestellt sind.
Wählen Sie ein Dokument im Abschnitt Upload aus.
Wählen Sie Aufteilen aus. Die Oberfläche für die Aufteilungsanmerkung wird geöffnet.
Hinweis:
Wenn das Projekt bereits über ein trainiertes Modell verfügt, werden hochgeladene Dokumente mit diesem Modell vorab kommentiert. Dies beschleunigt das Hinzufügen von Anmerkungen und ermöglicht es Ihnen, die Vorhersageergebnisse für neue Dokumente zu überprüfen.
Wählen Sie Neuer Dokumenttyp , um einen Dokumenttyp für jedes Element in Ihrer Taxonomie zu erstellen. Wählen Sie einen vordefinierten Dokumenttyp aus oder erstellen Sie einen benutzerdefinierten Typ. Geben Sie für benutzerdefinierte Dokumenttypen Folgendes an:
- Name: Ein klarer, beschreibender Name für den Dokumenttyp.
- Beschreibung: Ein bis drei Sätze, die den Zweck des Dokuments erklären und was es von ähnlichen Typen unterscheidet.
- Schlüsselindikatoren: Durch Kommas getrennte Felder oder Begriffe, die diesen Dokumenttyp eindeutig identifizieren. Beschreibungen und Schlüsselindikatoren wirken sich direkt auf die Modellgenauigkeit aus. Wenn die Klassifizierungspunktzahlen niedrig sind, verfeinern Sie die Beschreibungen, bevor Sie weitere Trainingsdaten hinzufügen. Beispiel für den Dokumententyp Rechnung:
- Beschreibung: Eine formelle Zahlungsaufforderung, die von einem Verkäufer an einen Käufer gestellt wird, in der Zeilenelemente, Mengen und fällige Gesamtbeträge aufgeführt sind.
- Wichtige Indikatoren: Rechnungsnummer, Rechnungsdatum, Gesamtbetrag, Verkäuferinformationen, Käuferinformationen, Zahlungsbedingungen. Tipps zum Verfassen effektiver Beschreibungen:
- Fügen Sie für den Dokumenttyp spezifische Terminologie ein.
- Wenn zwei Dokumenttypen häufig verwechselt werden, fügen Sie beiden Beschreibungen Unterscheidungsdetails hinzu.
Weisen Sie dem Unbekannten Typ Seiten zu, die für die Weiterverarbeitung nicht erforderlich sind. Dazu gehören Titelseiten, leere Seiten und Trennblätter. Das Modell sagt diese Seiten zur Laufzeit als Unbekannt voraus.
Wählen Sie die Grenzen zwischen Dokumenttypen aus, um anzugeben, wo die einzelnen Dokumente beginnen und enden.
Weisen Sie jeden Seitenbereich über das Dropdown-Menü einem Dokumenttyp zu.
Wählen Sie Bestätigen aus, wenn Sie mit den Anmerkungen am Dokument fertig sind.

Ergebnis

Jedes Unterdokument wird unter seinem entsprechenden Dokumenttyp im Abschnitt Erstellen angezeigt. Jedes Unterdokument wird mit dem Schema des zugewiesenen Dokumenttyps vorannotiert.

Bewährte Trainingsmethoden

Trainieren Sie auf originalen, unaufgeteilten Dokumentpaketen aus der Produktion – nicht auf voraufgeteilten einzelnen Dokumenten.

Das Modell lernt Dokumentenbündelungsmuster aus dem Kontext um jeden Dokumenttyp: was in einem echten Paket davor und danach erscheint. Das Training an vorab aufgeteilten Dokumenten entfernt diesen Kontext und reduziert die Aufteilungsgenauigkeit.

Empfohlener Ansatz:

Laden Sie Pakete aus der Produktion hoch, die mehrere Dokumenttypen enthalten.
Fügen Sie Pakete ein, die den Bereich der Reihenfolgen und Dokumentanzahlen darstellen, die in der Produktion zu sehen sind.
Streben Sie ein ausgewogenes Dataset über alle Dokumenttypen hinweg an.
Hinweis:
Das Training mit vorab aufgeteilten Dokumenten erzeugt ein funktionierendes Modell, aber die Aufteilungsgenauigkeit ist geringer als beim Training mit ursprünglichen Paketen.

Modelltraining

Sie starten das Modelltraining manuell mit der Schaltfläche Training starten im Statuselement Modelltraining , das in der oberen rechten Ecke des Klassifizierungsbereichs angezeigt wird. Das Training beginnt nicht automatisch.

Die Taste wird aktiviert, sobald beide der folgenden Bedingungen erfüllt sind:

Mindestens fünf Unterdokumente wurden erstellt und mit Anmerkungen versehen sein.
Hinweis:
Wenn Sie beispielsweise eine einzelne PDF verwenden, muss sie mindestens fünf Unterdokumente enthalten. Wenn Sie zwei PDF-Dateien verwenden, muss eine mindestens zwei Unterdokumente und die andere mindestens drei enthalten.
Ein Dokument wurde bestätigt.

Sobald der Schwellenwert erreicht ist, wählen Sie Training starten aus, um eine Ausführung in die Warteschlange zu stellen. Das Statussymbol durchläuft Warteschlangen, Training-in-Progress und schließlich Trainiert – mit der Punktzahl, dem Datum des letzten Trainings, der Dauer und der Basismodellversion. Wenn ein Training fehlschlägt, zeigt das Element den Fehler und eine Aktion Wiederholen an .

Weitere Informationen zu Schaltflächenstatus, dem Änderungszähler und dem vollständigen Trainingslebenszyklus finden Sie unter Starten einer Trainingsausführung.

Trainingsdatenanforderungen

Anforderungen	Details
Mindestanzahl an Dokumenttypen	1
Mindestanzahl an Proben insgesamt	5 Dokumente über alle Dokumenttypen hinweg
Mindestproben pro Typ	1
Empfohlen für zuverlässige Ergebnisse	50 bis 100 Pakete
Maximale Dokumentgröße	160 MB oder 500 Seiten
Aufteilung von Training/Test	Automatisch: 80 % Training, 20 % Test

Verbesserung der Trainingsergebnisse

Wenn die Leistung Sie nicht zufriedenstellt, verwenden Sie einen dieser Ansätze:

Verfeinern Sie die Beschreibungen und Schlüsselindikatoren leistungsschwacher Dokumenttypen.
Fügen Sie weitere Trainingsbeispiele für Dokumenttypen mit geringer Genauigkeit hinzu.

Aufteilungs- und Klassifizierungsvorhersagen

Immer wenn ein neues Modell trainiert wird, erhalten alle Dokumente im Projekt Vorhersagen vom trainierten Modell. Damit können Sie die Leistung des Klassifizierungsmodells überprüfen.

Die Spalte Typ zeigt die Ground Truth an – den Dokumenttyp mit Anmerkungen. Die Spalte Vorhergesagter Typ zeigt den vom Modell vorhergesagten Typ an.

Standardmäßig werden nur Dokumentpakete angezeigt. Um Unterdokumente innerhalb jedes Pakets anzuzeigen, wählen Sie Anzeigen aus und aktivieren Sie Unterdokumente einschließen.

Vorhersagen sind auch auf der Anmerkungsoberfläche verfügbar, indem der Umschalter Vorhersage anzeigen aktiviert wird.

Metriken verstehen

Wählen Sie die Registerkarte Messen aus, um die Modellleistung zu überprüfen.

Metrik	Was gemessen wird	Was zu tun ist, wenn die Werte niedrig sind
Aufteilung	Genauigkeit der Erkennung der Dokumentgrenzen, unabhängig von der Klassifizierung	Trainingsdaten mit vielfältigeren Grenzbeispielen hinzufügen
Klassifizierung	Genauigkeit der Zuweisung des Dokumenttyps, unabhängig von Grenzen	Fügen Sie weitere Trainingsseiten für Dokumenttypen mit geringer Leistung hinzu
Insgesamt	Kombinierter Score: Grenze und Zuweisung vom Typ müssen beide korrekt sein	Identifizieren Sie, ob die Aufteilung oder Klassifizierung niedriger ist, und kümmern Sie sich zuerst darum

Ein Unterdokument zählt nur als korrekt, wenn sowohl die Grenzerkennung als auch die Typzuweisung korrekt sind.

Aufteilung

Wie gut das Modell Dokumentgrenzen erkennt, d. h. wo ein Dokument endet und das nächste innerhalb einer Datei beginnt. Wird angezeigt als F1-Punktzahl auf Seitenebene, die unabhängig von der Klassifizierung gemessen wird, sodass sie ausschließlich die Qualität der Aufteilung widerspiegelt.

Interpretieren Sie die Punktzahl wie folgt:

Hohe Punktzahl: Eine höhere Punktzahl ist besser.
Niedrige Punktzahl: Das Modell erkennt wahrscheinlich Dokumentübergänge in diesen Typ, auf die es im Training nicht gestoßen ist. Fügen Sie weitere Beispiele hinzu, die diese Übergänge enthalten.
N/A: Es gibt nicht genügend relevante Übergänge im Auswertungssatz, um eine Aufteilungspunktzahl für diesen Typ zu berechnen.

Klassifizierung

Wie gut das Modell jeder Seite den richtigen Typ zuweist, gemessen unabhängig von der Aufteilung. Wird als F1-Punktzahl auf Seitenebene angezeigt.

Interpretieren Sie die Punktzahl wie folgt:

Hohe Punktzahl: Eine höhere Punktzahl ist besser.
Niedrige Punktzahl: Fügen Sie weitere Beispiele dieses Typs hinzu, damit das Modell mehr Layout- und Inhaltsvarianten abdeckt.

Insgesamt

Das kombinierte Maß dafür, wie gut das Modell diesen Dokumenttyp sowohl aufteilt als auch klassifiziert. Es spiegelt die End-to-End-Qualität wider und schlägt also fehl, wenn entweder die Aufteilung oder Klassifizierung schwach ist. Eine höhere Punktzahl ist besser.

Hinweis:

Große Dokumente mit vielen unbekannten Seiten im Testsatz können die Punktzahlen unverhältnismäßig senken. Wenn die Punktzahlen unerwartet niedrig erscheinen, prüfen Sie, ob Ausreißerdokumente den Testsatz verzerren.

Verbrauch des Modells zur Runtime

Über IntelligentOCR-Aktivitäten

Verwenden Sie die Aktivität Document Understanding Project Classifier aus dem Paket IntelligentOCR. Wenn die Aufteilung im Projekt aktiviert ist, gibt die Aktivität mehrere ClassificationResults zurück – eines pro erkanntem Unterdokument. Überarbeiten Sie die Ergebnisse, um eine Validierung oder Extraktion für jedes Unterdokument durchzuführen.

Über DocumentUnderstanding-Aktivitäten

Verwenden Sie die Aktivität Classify Document .

Über API

Verwenden Sie den classify Endpunkt. Wenn die Aufteilung in der Projektversion aktiviert ist, führt der Endpunkt eine Aufteilung durch und gibt Klassifizierungsergebnisse für jedes identifizierte Unterdokument zurück.

Importieren und Exportieren

Exportieren eines trainierten Modelldatensatzes

Wenn eine Projektversion einen trainierten Splitter-Klassifizierer enthält, stehen zwei Exportoptionen zur Verfügung:

Dataset-Export des Dokumenttyps: Standardexport von Daten mit Anmerkungen.
Aufteilungs-und Klassifizierer-Export: Vollständiger Projektexport einschließlich des trainierten Modells.

Nur Projektversionen mit einem trainierten Aufteilungsklassifizierer werden in der Dropdownliste Aufteilungs- und Klassifizierer-Export angezeigt.

Importieren in ein neues Projekt

Die Importoption ist auf der leeren Klassifizierungsseite verfügbar. Beim Importieren einer ZIP-Datei werden Dokumente ihren Dokumenttypen zugewiesen und das Training automatisch ausgelöst.

Einschränkungen

Nur in Mandanten in Europa und den USA verfügbar.
In der Anmerkungsoberfläche lassen sich Seiten nicht neu anordnen oder löschen.
Informationen zum Aufteilen sind auf der Seite Überwachen nicht verfügbar.
Das Action Center unterstützt das erneute Training für Aufteilungs- und Klassifizierungsmodelle nicht.

War diese Seite hilfreich?

Vorherige (previous)Ein Projekt erstellen

WeiterImportieren von Dokumenten

Überblick​

Verwendungszweck​

Erstellen eines neuen Projekts​

Voraussetzungen​

Ergebnis​

Daten aus Dokumenten extrahieren​

Dokumente klassifizieren und aufteilen​

Ergebnis​

Bewährte Trainingsmethoden​

Modelltraining​

Trainingsdatenanforderungen​

Verbesserung der Trainingsergebnisse​

Aufteilungs- und Klassifizierungsvorhersagen​

Metriken verstehen​

Aufteilung​

Klassifizierung​

Insgesamt​

Verbrauch des Modells zur Runtime​

Über IntelligentOCR-Aktivitäten​

Über DocumentUnderstanding-Aktivitäten​

Über API​

Importieren und Exportieren​

Exportieren eines trainierten Modelldatensatzes​

Importieren in ein neues Projekt​

Einschränkungen​

War diese Seite hilfreich?

Überblick

Verwendungszweck

Erstellen eines neuen Projekts

Voraussetzungen

Ergebnis

Daten aus Dokumenten extrahieren

Dokumente klassifizieren und aufteilen

Ergebnis

Bewährte Trainingsmethoden

Modelltraining

Trainingsdatenanforderungen

Verbesserung der Trainingsergebnisse

Aufteilungs- und Klassifizierungsvorhersagen

Metriken verstehen

Aufteilung

Klassifizierung

Insgesamt

Verbrauch des Modells zur Runtime

Über IntelligentOCR-Aktivitäten

Über DocumentUnderstanding-Aktivitäten

Über API

Importieren und Exportieren

Exportieren eines trainierten Modelldatensatzes

Importieren in ein neues Projekt

Einschränkungen