document-understanding

2024.10

true

Wichtig :

Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.

Document Understanding-Benutzerhandbuch für moderne Projekte

BEREITSTELLUNG:

Letzte Aktualisierung 15. Sep. 2025

Erstellen

Dieser Abschnitt bietet die folgenden Möglichkeiten:

Laden Sie Dokumente hoch und klassifizieren Sie sie automatisch.
Laden Sie Dokumente direkt in Dokumenttypen hoch.
Verwalten Sie Dateien über das Projekt (Dateien hinzufügen, entfernen).
Erstellen Sie Anmerkungen für Dokumente.
Fügen Sie Felder hinzu oder entfernen Sie sie.
Sie erhalten eine Anleitung zum Training von Klassifizierungs- und Extraktionsmodellen anhand der Empfehlungen.

Annotieren von Dokumenten

Nachdem Sie Ihr Projekt erfolgreich erstellt und Ihre Dokumente in einen bestimmten Dokumenttyp hochgeladen haben, werden sie automatisch vorab kommentiert. Dies geschieht mithilfe spezieller Modelle, die auf dem Schema des Dokumenttyps basieren. Das Schema definiert eindeutig die Felder, die Sie aus einem bestimmten Dokumenttyp extrahieren möchten. Um das Schema des Dokumenttyps zu finden, wechseln Sie zur Seite Anmerkung und überprüfen Sie den Abschnitt Felder.

Ausführliche Informationen darüber, wie Sie Anmerkungen zu Ihren Dokumenten hinzufügen können, finden Sie auf der Seite Hinzufügen von Anmerkungen zu Dokumenten.

Ausnahmen für die Überprüfung

Sie können Dokumente verwenden, die in der Validation Station validiert wurden, um die Leistung Ihrer Modelle weiter zu verbessern.

Wenn nach dem Validierungsschritt Änderungen vorgenommen werden, wird die Taste Ausnahmen zur Überprüfung für den betroffenen Dokumententyp angezeigt.

Abbildung 1. Taste „Ausnahmen bei der Überprüfung“

Weitere Informationen dazu, wie Sie Ihre Modelle neu trainieren können, finden Sie auf der Seite mit Anweisungen zum erneuten Trainieren von Extraktoren.

Feldeinstellungen bearbeiten

Sie können die Einstellungen für mehrere Felder im Dokumenttypmanager bearbeiten.

Um dorthin zu gelangen, wählen Sie das Drei-Punkte-Symbol ⋮ neben dem Dokumenttyp aus, den Sie bearbeiten möchten, und wählen Sie Dokumenttypmanager im Menü aus.

Abbildung 2. Dokumenttypmanager auswählen

Bearbeiten oder Hinzufügen neuer Felder

Um ein neues Feld hinzuzufügen, wählen Sie Feld hinzufügen aus und geben Sie die erforderlichen Informationen ein. Sie können die folgenden Optionen für jedes Feld hinzufügen oder bearbeiten:

Feldname: Der eindeutige Name für das Feld.
Inhaltstyp: Der Inhaltstyp des Felds:
- String: Für Firmennamen oder Adressen sowie Zahlungsbedingungen oder für jedes andere Feld, für das Sie die Analyse- oder Formatierungslogik manuell im RPA-Workflow erstellen möchten.
- Zahl: Für Beträge oder Mengen, mit intelligenter Analyse der Dezimal-/Tausendertrennzeichen.
- Datum: Analysieren, formatieren und vereinheitlichen Sie die Ausgabe im Format JJJJ-MM-TT.
- Telefon: Für Telefonnummern. Bei der Formatierung werden Buchstaben und Klammern entfernt. Leerzeichen werden durch Bindestriche ersetzt.
- ID-Nummer: Für alphanumerische Codes, Nummern von IDs. Diese Option ähnelt dem String-Inhaltstyp, entfernt jedoch alle Zeichen, die vor dem Zeichen : stehen. Wenn die ID-Nummer, die Sie extrahieren müssen, das Zeichen: enthalten kann, verwenden Sie stattdessen den Inhaltstyp string, um Datenverlust zu vermeiden.
Tastenkombination: Die Tastenkombination für das Feld. Ein Schlüssel oder eine Kombination aus zwei Schlüsseln ist zulässig.
Erweiterte Einstellungen: Die verfügbaren Optionen unterscheiden sich je nach Inhaltstyp des ausgewählten Felds. Wählen Sie die Schaltfläche Erweiterte Einstellungen für das gewünschte Feld aus, das bearbeitet werden soll:
Abbildung 3. Erweiterte Einstellungen für den Dokumenttyp
- Feld-ID: Die eindeutige ID für das Feld.
- Nachverarbeiten:
  - first_span: Wenn das Modell mehr als eine Instanz eines Felds in einem Dokument vorhersagt, soll das Modell die erste Instanz zurückgeben.
  - longest_value: Wenn das Modell mehr als eine Instanz eines Felds in einem Dokument vorhersagt, soll das Modell den Wert mit der höchsten Anzahl an Zeichen zurückgeben.
  - highest_confidence: Wenn das Modell mehr als eine Instanz eines Felds in einem Dokument vorhersagt, soll das Modell den Wert mit der höchsten Konfidenz zurückgeben.
  Bewertung: Das Maß zur Bestimmung der Genauigkeit beim Auswerten von Modellvorhersagen ist nur für Felder mit dem Inhaltstyp String verfügbar:
  - exact_match: Eine Vorhersage gilt nur dann als richtig (Punktzahl 1), wenn sie exakt dem wahren Wert entspricht. Unterscheidet sie sich auch nur um ein einziges Zeichen, so gilt sie als falsch (Punktzahl 0). Dies ist die Standardeinstellung für alle Felder mit Ausnahme der String-Felder.
  - levenshtein: Eine Vorhersage wird gemäß der Levenshtein-Distanz zwischen der Vorhersage und dem true-Wert als teilweise richtig erachtet. Beispiel: Wenn ein 10-Buchstaben-Wert bis auf die letzten zwei Zeichen korrekt vorhergesagt wird, dann beträgt die Punktzahl dieser Vorhersage 0,8.
- Datumsformat: Dieses Feld ist nur für Felder mit dem Inhaltstyp Datum verfügbar und gibt an, wie mehrdeutige Datumsangaben geparst und zurückgegeben werden:
  - Auto
  - US-Stil: JJJJ-TT-MM
  - Nicht US-amerikanischer Stil: JJJJ-MM-TT
- Mehrzeilig: Bei Feldern, die sich über mehrere Textzeilen erstrecken (Adressen oder Beschreibungen), muss diese Option aktiviert sein, sonst wird nur die erste Zeile zurückgegeben.
- Mehrfachwert: Das Feld gibt eine Liste mit allen im Dokument erkannten Werten zurück.

Änderungen an Dokumenttypeinstellungen werden in der neuen Projektversion nicht widergespiegelt, wenn Sie eine neue Projektversion veröffentlichen, bevor Sie ein Training erneut auslösen.

Problemumgehung: Um dies zu vermeiden, trainieren Sie den Dokumenttyp neu, nachdem Sie Änderungen an den Dokumenttypfeldern vorgenommen haben. Sie können dies tun, indem Sie zusätzliche Dokumente für diesen Typ mit Tags versehen oder bestätigen, bevor Sie eine neue Version veröffentlichen.

Modelleinstellungen

Sie können die Dokumenttypeinstellungen in der Ansicht „ Modelleinstellungen “ ändern. Wählen Sie dazu Modelleinstellungen aus.

Abbildung 4. Modelleinstellungen

Sie können die folgenden Einstellungen ändern:

Basismodell: Die Schätzungen der Dataset-Größe, die in den empfohlenen Aktionen verwendet werden, hängen von dem für das Training verwendeten Basismodell ab. Wenn Sie das Basismodell verwenden, das Ihrem Dokumenttyp am ähnlichsten ist, verringert sich der Arbeitsaufwand für die Beschriftung.
Anzahl der Sprachen: Die Schätzung der Dataset-Größe, die in den empfohlenen Aktionen verwendet wird, hängt von der Anzahl der Sprachen im Dataset ab. Je mehr Sprachen, desto mehr Daten müssen annotiert werden.

Suchfeldnamen

Sie können die verfügbaren Feldnamen durchsuchen. Verwenden Sie dazu die Suchleiste in der oberen linken Ecke der Dokumenttypmanager-Schnittstelle. Zur effizienteren Suche können Sie die Funktion Filter verwenden, um nach Inhaltstyp zu filtern.

Abbildung 5. Namen der Suchfelder

Felder löschen

Wählen Sie die Option Löschen neben dem Feld aus, das Sie löschen möchten.

Abbildung 6. Feld löschen

Sie können auch mehrere (oder alle) Felder auswählen und sie gleichzeitig löschen. Aktivieren Sie dazu das Häkchen neben den Feldern, die Sie löschen möchten, und klicken Sie dann auf Löschen.

Abbildung 7. Mehrere Felder auf einmal löschen.

Dokumente durchsuchen

Sie können hochgeladene Dokumente anhand des Dokumentnamens suchen. Verwenden Sie dazu die Suchleiste in der oberen linken Ecke des Abschnitts Erstellen. Für eine effizientere Suche verwenden Sie die Filterfunktion zum Filtern nach:

Dokumenttyp: Wählen Sie den gewünschten Dokumenttyp aus der Dropdownliste aus.
Upload-Datum: Wählen Sie ein Datumsintervall aus, in dem das Dokument hochgeladen wurde.
Status: Wählen Sie den Status des Dokuments aus.
Tag: Wählen Sie die Tags aus, nach denen Sie filtern möchten.

Abbildung 8. Dokumente filtern

Projekt- und Modellpunktzahl

Sie können die Gesamtpunktzahl Ihres Projekts in der oberen rechten Ecke überprüfen. Diese Punktzahl beeinflusst die Klassifizierer- und Extraktorpunktzahlen für alle Dokumenttypen. Wählen Sie Projektpunktzahl aus, um den Abschnitt Messen anzuzeigen. Detailliertere Leistungsmessungen finden Sie in diesem Abschnitt.

Sie können die Punktzahl für jeden Dokumenttyp separat im Abschnitt „Dokumenttyp“ überprüfen. Diese Punktzahl berücksichtigt die Gesamtleistung des Modells sowie die Größe und Qualität des Datasets.

Hinweis: Sie müssen mindestens 10 Dokumente hochladen, um eine Projektpunktzahl zu erhalten. Für eine Dokumenttyppunktzahl benötigen Sie mindestens 10 Dokumente unter demselben Dokumenttyp.

Sie können die Modellbewertung Ihrer Modelle überprüfen, wenn Sie das Punktzahl-Tag auswählen. Die Modellbewertung ist eine Funktion, mit der Sie die Leistung eines Klassifizierungsmodells visualisieren können. Sie wird als Modellpunktzahl von 0 bis 100 mit der folgenden Bedeutung ausgedrückt: