UiPath Documentation
document-understanding
latest
false

Document Understanding-Benutzerhandbuch.

Letzte Aktualisierung 29. Apr. 2026

Trainierbarer Splitter (Vorschau)

Überblick

Der trainierbare Splitter verwendet das Helix Classifier-Modell, um Pakete mit mehreren Dokumenten zu teilen und zu klassifizieren. Es erkennt Dokumentgrenzen automatisch und weist jedem erkannten Unterdokument einen Dokumenttyp zu.

Das Modell ist nur für Mandanten in Europa und den USA verfügbar.

Wichtig:

Diese Funktion wird für Organisationen nicht unterstützt, die Kundenseitig verwaltete Schlüssel (CMK) verwenden. Wenn Ihre Organisation CMK verwendet, ist diese Funktion nicht verfügbar und kann in Ihren Projekteinstellungen nicht aktiviert werden.

Verwendungszweck

Verwenden Sie den trainierbaren Splitter in den folgenden Szenarien:

  • Hypothekenanträge: Aufteilen von Paketen mit IDs, Antragsformularen und Kontoauszügen.
  • Gesundheitswesen-Onboarding: Überprüfen Sie das Vorhandensein der erforderlichen Dokumente wie medizinische Zertifikate, NPI-Formulare und Ausweise.
  • Versicherungsfälle: Separate Antragsformulare, Gesundheitsakten und Belege.
  • Rechnungsverarbeitung: Verarbeiten Sie Rechnungspakete mit mehreren Lieferanten.
  • Dokumentbereinigung: Entfernen Sie irrelevante Seiten, sodass nur relevante Inhalte weiterverarbeitet werden.

Erstellen eines neuen Projekts

Beim Erstellen eines neuen Projekts können Mandanten in Europa und den USA das neue Splitter- und Klassifizierer-Modell aktivieren. Dieses trainierbare Modell kann darauf trainiert werden, komplexe Dokumente aufzuteilen und zu klassifizieren, sodass Sie Dokumentenpakete verarbeiten können.

Folgen Sie den Anweisungen auf dieser Seite, um ein Document UnderstandingTM- Projekt zu erstellen und das neue Trenn- und Klassifizierermodell zu aktivieren.

Voraussetzungen

Bevor Sie beginnen, stellen Sie sicher, dass die folgenden Bedingungen erfüllt sind:

  • Ihr Mandant befindet sich in Europa oder den USA.
  • IntelligentOCR.Activities Version 6.27.0 oder höher ist installiert.
  • Moderne Projekte sind in Ihrem Automation Cloud-Mandanten aktiviert.
  • Sie haben Pakete mit Beispieldokumenten, die für Ihren Produktionsanwendungsfall repräsentativ sind.
  1. Öffnen Sie Document Understanding.

  2. Wählen Sie Projekt erstellen.

  3. Geben Sie den gewünschten Projektnamen ein.

  4. Wählen Sie für Automation Cloud und Test Cloud die Option Modern aus, um die moderne Umgebung zu verwenden.

  5. Aktivieren Sie den Schalter Neues Splitter- und Klassifizierungsmodell aktivieren.

  6. Konfigurieren Sie bei Bedarf Erweiterte Optionen.

    1. Aktivieren Sie den Umschalter Aufteilung aktivieren , damit das Modell Dokumente vor der Klassifizierung in einzelne Dateien aufteilen kann. Sie können diese Option auch über den Bildschirm Projekteinstellungen aktivieren.
      Wichtig:

      Wenn die Option Aufteilung aktivieren deaktiviert ist, wird das Modell nur im Klassifizierungsmodus ausgeführt:

      • Die Oberfläche für die Aufteilungsanmerkung ist nicht verfügbar.
      • Dokumente können nicht manuell aufgeteilt werden.
      • Laden Sie für Trainingszwecke einseitige oder mehrseitige Dokumente des gleichen Typs hoch.
      • Alle anderen Funktionalitäten bleiben unverändert.
    2. Wählen Sie die OCR-Methode von der Dropdownliste OCR-Methode aus.
    3. Geben Sie den OCR-API-Schlüssel ein.
      Hinweis:

      Dieses Feld wird automatisch ausgefüllt, wenn Sie eine UiPath®-OCR auswählen.

    4. Geben Sie die OCR-URL ein. Die vollständige Liste der URLs für UiPath-OCRs finden Sie auf der Seite Öffentliche Endpunkte .
    5. Wählen Sie aus, ob OCR auf PDF-Dateien angewendet werden soll . Der Standardwert ist Auto.
  7. Wählen Sie Erstellen.

    Dokumentationsbild

Ergebnis

Ihr Projekt wird erstellt. Der Abschnitt Erstellen wird verfügbar, wo Sie Dokumente zur Extraktion oder Klassifizierung hochladen können.

Wählen Sie eine der beiden verfügbaren Optionen aus:

  • Daten aus Dokumenten extrahieren: Extrahiert bestimmte Felder aus Ihren Dokumenten, wie Rechnungsnummern, Daten und Gesamtbeträge. Verwenden Sie diese Option, wenn Sie Felder aus Dokumenten extrahieren müssen.
  • Dokumente klassifizieren und aufteilen: Sortiert Dokumente nach Typ und trennt mehrere Dokumente innerhalb einer einzigen Datei. Verwenden Sie diese Option, wenn Sie Dokumente aufteilen und klassifizieren müssen.

Daten aus Dokumenten extrahieren

  1. Wählen Sie einen Dokumenttyp aus.
  2. Wählen Sie Hochladen aus oder ziehen Sie Ihre Dateien per Drag-and-Drop in den neuen Dokumenttyp. Warten Sie, bis der Upload abgeschlossen ist.

Dokumente klassifizieren und aufteilen

Bestimmte komplexe Dateien enthalten mehrere Dokumenttypen. Der trainierbare Splitter erkennt, wo jedes Unterdokument beginnt und endet, und klassifiziert jeden Abschnitt entsprechend.

  1. Wählen Sie Dokumente klassifizieren und aufteilen aus.
  2. Laden Sie Ihre Dokumentenpakete hoch. Warten Sie, bis der Upload und die Verarbeitung fertig gestellt sind.
  3. Wählen Sie ein Dokument im Abschnitt Upload aus.
  4. Wählen Sie Aufteilen aus. Die Oberfläche zur Aufteilung der Anmerkung wird geöffnet.
    Hinweis:

    Wenn das Projekt bereits über ein trainiertes Modell verfügt, werden hochgeladene Dokumente mit diesem Modell vorab kommentiert. Dies beschleunigt das Hinzufügen von Anmerkungen und ermöglicht es Ihnen, die Vorhersageergebnisse für neue Dokumente zu überprüfen.

  5. Wählen Sie Neuer Dokumenttyp aus, um für jedes Element in Ihrer Taxonomie einen Dokumenttyp zu erstellen. Wählen Sie einen vordefinierten Dokumenttyp aus oder erstellen Sie einen benutzerdefinierten. Geben Sie für benutzerdefinierte Dokumenttypen Folgendes an:
    • Name: Ein klarer, beschreibender Name für den Dokumenttyp.
    • Beschreibung: Ein bis drei Sätze, in denen der Zweck des Dokuments erläutert wird und was es von ähnlichen Typen unterscheidet.
    • Schlüsselindikatoren: Durch Kommas getrennte Felder oder Begriffe, die diesen Dokumenttyp eindeutig identifizieren. Beschreibungen und Schlüsselindikatoren wirken sich direkt auf die Modellgenauigkeit aus. Wenn Klassifizierungspunktzahlen niedrig sind, optimieren Sie die Beschreibungen, bevor Sie weitere Trainingsdaten hinzufügen. Beispiel für einen Rechnungsdokumenttyp:
    • Beschreibung: Eine formelle Zahlungsanforderung, die von einem Verkäufer an einen Käufer gestellt wird und in der die Positionen, Mengen und Gesamtbeträge aufgeführt sind, die fällig sind.
    • Schlüsselindikatoren: Rechnungsnummer, Rechnungsdatum, Gesamtbetrag, Verkäuferinformationen, Käuferinformationen, Zahlungsbedingungen. Tipps zum Verfassen effektiver Beschreibungen:
    • Fügen Sie für den Dokumenttyp spezifische Terminologie ein.
    • Wenn zwei Dokumenttypen häufig verwechselt werden, fügen Sie beiden Beschreibungen Unterscheidungsdetails hinzu.
  6. Weisen Sie Seiten, die nicht für die Weiterverarbeitung benötigt werden, dem unbekannten Typ zu. Dazu gehören Titelseiten, leere Seiten und Trennblätter. Das Modell sagt diese Seiten zur Laufzeit als Unbekannt vorher.
  7. Wählen Sie die Grenzen zwischen Dokumenttypen aus, um anzugeben, wo die einzelnen Dokumente beginnen und enden.
  8. Weisen Sie jeden Seitenbereich über das Dropdown-Menü einem Dokumenttyp zu.
  9. Wählen Sie Bestätigen aus, wenn Sie mit dem Kommentieren des Dokuments fertig sind.

Ergebnis

Jedes Unterdokument wird unter dem entsprechenden Dokumenttyp im Abschnitt Erstellen angezeigt. Jedes Unterdokument wird mit dem Schema des zugewiesenen Dokumenttyps vorab kommentiert.

Bewährte Trainingsmethoden

Trainieren Sie auf originalen, unaufgeteilten Dokumentpaketen aus der Produktion – nicht auf voraufgeteilten einzelnen Dokumenten.

Das Modell lernt Dokumentenbündelungsmuster aus dem Kontext um jeden Dokumenttyp: was in einem echten Paket davor und danach erscheint. Das Training an vorab aufgeteilten Dokumenten entfernt diesen Kontext und reduziert die Aufteilungsgenauigkeit.

Empfohlener Ansatz:

  • Laden Sie Pakete aus der Produktion hoch, die mehrere Dokumenttypen enthalten.
  • Fügen Sie Pakete ein, die den Bereich der Reihenfolgen und Dokumentanzahlen darstellen, die in der Produktion zu sehen sind.
  • Streben Sie ein ausgewogenes Dataset über alle Dokumenttypen hinweg an.
    Hinweis:

    Training für vorab aufgeteilte Dokumente erzeugt ein funktionierendes Modell, aber die Aufteilungsgenauigkeit ist geringer als beim Training für ursprüngliche Pakete.

Modelltraining

Das Modelltraining beginnt automatisch, nachdem die beiden folgenden Bedingungen erfüllt sind:

  • Mindestens fünf Unterdokumente wurden erstellt und mit Anmerkungen versehen sein.
    Hinweis:

    Wenn Sie beispielsweise eine einzelne PDF-Datei verwenden, muss diese mindestens fünf Unterdokumente enthalten. Wenn Sie zwei PDF-Dokumente verwenden, muss eines mindestens zwei Unterdokumente und das andere mindestens drei enthalten.

  • Ein Dokument wurde bestätigt.

Der Trainingsstatus wird in der oberen rechten Ecke des Klassifizierungsbereichs angezeigt.

Trainingsdatenanforderungen

AnforderungenDetails
Mindestanzahl an Dokumenttypen1
Mindestanzahl an Proben insgesamt5 Dokumente über alle Dokumenttypen hinweg
Mindestproben pro Typ1
Empfohlen für zuverlässige Ergebnisse50 bis 100 Pakete
Maximale Dokumentgröße160 MB oder 500 Seiten
Aufteilung von Training/TestAutomatisch: 80 % Training, 20 % Test

Verbesserung der Trainingsergebnisse

Wenn die Leistung Sie nicht zufriedenstellt, verwenden Sie einen dieser Ansätze:

  1. Verfeinern Sie die Beschreibungen und Schlüsselindikatoren leistungsschwacher Dokumenttypen.
  2. Fügen Sie weitere Trainingsbeispiele für Dokumenttypen mit geringer Genauigkeit hinzu.

Aufteilungs- und Klassifizierungsvorhersagen

Immer wenn ein neues Modell trainiert wird, erhalten alle Dokumente im Projekt Vorhersagen vom trainierten Modell. Damit können Sie die Leistung des Klassifizierungsmodells überprüfen.

Die Spalte Typ zeigt die Ground Truth an – den Dokumenttyp mit Anmerkungen. Die Spalte Vorhergesagter Typ zeigt den vom Modell vorhergesagten Typ an.

Standardmäßig werden nur Dokumentpakete angezeigt. Um Unterdokumente innerhalb jedes Pakets anzuzeigen, wählen Sie Anzeigen aus und aktivieren Sie Unterdokumente einbeziehen.

Vorhersagen sind auch auf der Anmerkungsoberfläche verfügbar, indem der Umschalter Vorhersage anzeigen aktiviert wird.

Metriken verstehen

Wählen Sie die Registerkarte Messen aus, um die Modellleistung zu überprüfen.

MetrikWas gemessen wirdWas zu tun ist, wenn die Werte niedrig sind
Aufteilen von F1Genauigkeit der Erkennung der Dokumentgrenzen, unabhängig von der KlassifizierungTrainingsdaten mit vielfältigeren Grenzbeispielen hinzufügen
Klassifizierung F1Genauigkeit der Zuweisung des Dokumenttyps, unabhängig von GrenzenFügen Sie weitere Trainingsseiten für Dokumenttypen mit geringer Leistung hinzu
Insgesamt F1Kombinierter Score: Grenze und Zuweisung vom Typ müssen beide korrekt seinIdentifizieren Sie, ob die Aufteilung oder Klassifizierung niedriger ist, und kümmern Sie sich zuerst darum

Ein Unterdokument zählt nur als korrekt, wenn sowohl die Grenzerkennung als auch die Typzuweisung korrekt sind.

Hinweis:

Große Dokumente mit vielen unbekannten Seiten im Testsatz können die Punktzahlen unverhältnismäßig senken. Wenn die Punktzahlen unerwartet niedrig erscheinen, überprüfen Sie, ob Ausreißerdokumente den Testsatz verzerren.

Verbrauch des Modells zur Runtime

Über IntelligentOCR-Aktivitäten

Verwenden Sie die Aktivität Document Understanding Project Classifier aus dem Paket IntelligentOCR. Wenn die Aufteilung im Projekt aktiviert ist, gibt die Aktivität mehrere Klassifizierungsergebnisse zurück – eines pro erkanntem Unterdokument. Durchlaufen Sie die Ergebnisse, um die Validierung oder Extraktion für jedes Unterdokument durchzuführen.

Über DocumentUnderstanding-Aktivitäten

Verwenden Sie die Aktivität Classify Document .

Über API

Verwenden Sie den classify Endpunkt. Wenn die Aufteilung in der Projektversion aktiviert ist, führt der Endpunkt eine Aufteilung durch und gibt Klassifizierungsergebnisse für jedes identifizierte Unterdokument zurück.

Importieren und Exportieren

Exportieren eines trainierten Modelldatensatzes

Wenn eine Projektversion einen trainierten Splitter-Klassifizierer enthält, stehen zwei Exportoptionen zur Verfügung:

  • Dokumenttyp-Dataset-Export: Standardexport von Daten mit Anmerkungen.
  • Splitter- und Klassifizierer-Export: Vollständiger Projektexport einschließlich des trainierten Modells.

Nur Projektversionen mit einem trainierten Bereichsklassifizierer werden in der Dropdownliste Verteiler- und Klassifiziererexport angezeigt.

Importieren in ein neues Projekt

Die Importoption ist auf der leeren Klassifizierungsseite verfügbar. Beim Importieren einer ZIP-Datei werden Dokumente ihren Dokumenttypen zugewiesen und das Training automatisch ausgelöst.

Einschränkungen

  • Nur in Mandanten in Europa und den USA verfügbar.
  • In der Anmerkungsoberfläche lassen sich Seiten nicht neu anordnen oder löschen.
  • Informationen zum Aufteilen sind auf der Seite Überwachen nicht verfügbar.
  • Das Action Center unterstützt das erneute Training für Aufteilungs- und Klassifizierungsmodelle nicht.

War diese Seite hilfreich?

Verbinden

Benötigen Sie Hilfe? Support

Möchten Sie lernen? UiPath Academy

Haben Sie Fragen? UiPath-Forum

Auf dem neuesten Stand bleiben