- Überblick
- Erste Schritte
- Erstellen von Modellen
- Verbrauchen von Modellen
- ML-Pakete
- 1040 – ML-Paket
- 1040 Anlage C – ML-Paket
- 1040 Anlage D – ML-Paket
- 1040 Anlage E – ML-Paket
- 1040x – ML-Paket
- 3949a – ML-Paket
- 4506T – ML-Paket
- 941x – ML-Paket
- 9465 – ML-Paket
- ACORD125 – ML-Paket
- ACORD126 – ML-Paket
- ACORD131 – ML-Paket
- ACORD140 – ML-Paket
- ACORD25 – ML-Paket
- Bank Statements – ML-Paket
- BillsOfLading – ML-Paket
- Certificate of Incorporation – ML-Paket
- Certificates of Origin – ML-Paket
- Checks – ML-Paket
- Children Product Certificate – ML-Paket
- CMS1500 – ML-Paket
- EU Declaration of Conformity – ML-Paket
- Financial Statements – ML-Paket
- FM1003 – ML-Paket
- I9 – ML-Paket
- ID Cards – ML-Paket
- Invoices – ML-Paket
- InvoicesAustralia – ML-Paket
- InvoicesChina – ML-Paket
- Rechnungen Hebräisch – ML-Paket
- InvoicesIndia – ML-Paket
- InvoicesJapan – ML-Paket
- Invoices Shipping – ML-Paket
- Packing Lists – ML-Paket
- Gehaltsabrechnungen (Pay slips) – ML-Paket
- Passports – ML-Paket
- Purchase Orders – ML-Paket
- Receipts – ML-Paket
- Receipts Japan – ML-Paket
- RemittanceAdvices – ML-Paket
- UB04 – ML-Paket
- Utility Bills – ML-Paket
- Vehicle Titles – ML-Paket
- W2 – ML-Paket
- W9 – ML-Paket
- Öffentliche Endpunkte
- Unterstützte Sprachen
- Insights-Dashboards
- Daten und Sicherheit
- Lizenzierung
- Anleitungen zu …
Document Understanding-Benutzerhandbuch für moderne Projekte
Erstellen
- Laden Sie Dokumente hoch und klassifizieren Sie sie automatisch.
- Laden Sie Dokumente direkt in Dokumenttypen hoch.
- Verwalten Sie Dateien über das Projekt (Dateien hinzufügen, entfernen und Tags hinzufügen, ändern).
- Erstellen Sie Anmerkungen für Dokumente.
- Fügen Sie Felder hinzu oder entfernen Sie sie.
- Sie erhalten eine Anleitung zum Training von Klassifizierungs- und Extraktionsmodellen anhand der Empfehlungen.
Nachdem Sie Ihr Projekt erfolgreich erstellt und Ihre Dokumente in einen bestimmten Dokumenttyp hochgeladen haben, werden sie automatisch vorab kommentiert. Dies geschieht mithilfe einer Kombination aus generativen und spezialisierten Modellen, die auf dem Schema des Dokumenttyps basieren. Das Schema definiert eindeutig die Felder, die Sie aus einem bestimmten Dokumenttyp extrahieren möchten. Um das Schema des Dokumenttyps zu finden, wechseln Sie zur Seite Anmerkung und überprüfen Sie den Abschnitt Felder.
Ausführliche Informationen darüber, wie Sie Anmerkungen zu Ihren Dokumenten hinzufügen können, finden Sie auf der Seite Hinzufügen von Anmerkungen zu Dokumenten.
Sie können die Einstellungen für mehrere Felder im Dokumenttypmanager bearbeiten.
Um dorthin zu gelangen, wählen Sie das Drei-Punkte-Symbol ⋮ neben dem Dokumenttyp aus, den Sie bearbeiten möchten, und wählen Sie Dokumenttypmanager im Menü aus.
- Feldname: Der eindeutige Name für das Feld.
- Inhaltstyp: Der Inhaltstyp des Felds:
- String: Für Firmennamen oder Adressen sowie Zahlungsbedingungen oder für jedes andere Feld, für das Sie die Analyse- oder Formatierungslogik manuell im RPA-Workflow erstellen möchten.
- Zahl: Für Beträge oder Mengen, mit intelligenter Analyse der Dezimal-/Tausendertrennzeichen.
- Datum: Analysieren, formatieren und vereinheitlichen Sie die Ausgabe im Format JJJJ-MM-TT.
- Telefon: Für Telefonnummern. Bei der Formatierung werden Buchstaben und Klammern entfernt. Leerzeichen werden durch Bindestriche ersetzt.
- ID-Nummer: Für alphanumerische Codes, Nummern von IDs. Diese Option ähnelt dem String-Inhaltstyp, entfernt jedoch alle Zeichen, die vor dem Zeichen
:
stehen. Wenn die ID-Nummer, die Sie extrahieren müssen, das Zeichen:
enthalten kann, verwenden Sie stattdessen den Inhaltstypstring
, um Datenverlust zu vermeiden.
- Tastenkombination: Die Tastenkombination für das Feld. Ein Schlüssel oder eine Kombination aus zwei Schlüsseln ist zulässig.
- Erweiterte Einstellungen: Die verfügbaren Optionen unterscheiden sich je nach Inhaltstyp des ausgewählten Felds. Wählen Sie die Schaltfläche Erweiterte Einstellungen für das gewünschte Feld aus, das bearbeitet werden soll:
Abbildung 2. Erweiterte Einstellungen für den Dokumenttyp
- Feld-ID: Die eindeutige ID für das Feld.
- Nachverarbeiten:
- first_span: Wenn das Modell mehr als eine Instanz eines Felds in einem Dokument vorhersagt, soll das Modell die erste Instanz zurückgeben.
- longest_value: Wenn das Modell mehr als eine Instanz eines Felds in einem Dokument vorhersagt, soll das Modell den Wert mit der höchsten Anzahl an Zeichen zurückgeben.
- highest_confidence: Wenn das Modell mehr als eine Instanz eines Felds in einem Dokument vorhersagt, soll das Modell den Wert mit der höchsten Konfidenz zurückgeben.
- exact_match: Eine Vorhersage gilt nur dann als richtig (Punktzahl 1), wenn sie exakt dem wahren Wert entspricht. Unterscheidet sie sich auch nur um ein einziges Zeichen, so gilt sie als falsch (Punktzahl 0). Dies ist die Standardeinstellung für alle Felder mit Ausnahme der String-Felder.
- levenshtein: Eine Vorhersage wird gemäß der Levenshtein-Distanz zwischen der Vorhersage und dem true-Wert als teilweise richtig erachtet. Beispiel: Wenn ein 10-Buchstaben-Wert bis auf die letzten zwei Zeichen korrekt vorhergesagt wird, dann beträgt die Punktzahl dieser Vorhersage 0,8.
- Datumsformat: Dieses Feld ist nur für Felder mit dem Inhaltstyp Datum verfügbar und gibt an, wie mehrdeutige Datumsangaben geparst und zurückgegeben werden:
- Auto
- US-Stil: JJJJ-TT-MM
- Nicht US-amerikanischer Stil: JJJJ-MM-TT
- Mehrzeilig: Bei Feldern, die sich über mehrere Textzeilen erstrecken (Adressen oder Beschreibungen), muss diese Option aktiviert sein, sonst wird nur die erste Zeile zurückgegeben.
- Mehrfachwert: Das Feld gibt eine Liste mit allen im Dokument erkannten Werten zurück.
Änderungen an Dokumenttypeinstellungen werden in der neuen Projektversion nicht widergespiegelt, wenn Sie eine neue Projektversion veröffentlichen, bevor Sie ein Training erneut auslösen.
Problemumgehung: Um dies zu vermeiden, trainieren Sie den Dokumenttyp neu, nachdem Sie Änderungen an den Dokumenttypfeldern vorgenommen haben. Sie können dies tun, indem Sie zusätzliche Dokumente für diesen Typ mit Tags versehen oder bestätigen, bevor Sie eine neue Version veröffentlichen.
Sie können die Dokumenttypeinstellungen in der Ansicht „ Modelleinstellungen “ ändern. Wählen Sie dazu Modelleinstellungen aus.
Sie können die folgenden Einstellungen ändern:
- Basismodell: Die Schätzungen der Dataset-Größe, die in den empfohlenen Aktionen verwendet werden, hängen von dem für das Training verwendeten Basismodell ab. Wenn Sie das Basismodell verwenden, das Ihrem Dokumenttyp am ähnlichsten ist, verringert sich der Arbeitsaufwand für die Beschriftung.
- Anzahl der Sprachen: Die Schätzung der Dataset-Größe, die in den empfohlenen Aktionen verwendet wird, hängt von der Anzahl der Sprachen im Dataset ab. Je mehr Sprachen, desto mehr Daten müssen annotiert werden.
Sie können die verfügbaren Feldnamen durchsuchen. Verwenden Sie dazu die Suchleiste in der oberen linken Ecke der Dokumenttypmanager-Schnittstelle. Zur effizienteren Suche können Sie die Funktion Filter verwenden, um nach Inhaltstyp zu filtern.
Wählen Sie die Option Löschen neben dem Feld aus, das Sie löschen möchten.
- Dokumenttyp: Wählen Sie den gewünschten Dokumenttyp aus der Dropdownliste aus.
- Upload-Datum: Wählen Sie ein Datumsintervall aus, in dem das Dokument hochgeladen wurde.
- Status: Wählen Sie den Status des Dokuments aus.
Sie können die Gesamtpunktzahl Ihres Projekts in der oberen rechten Ecke überprüfen. Diese Punktzahl beeinflusst die Klassifizierer- und Extraktorpunktzahlen für alle Dokumenttypen. Klicken Sie auf Projektpunktzahl, um den Abschnitt Messen anzuzeigen. Detailliertere Leistungsmessungen finden Sie in diesem Abschnitt.
Sie können die Punktzahl für jeden Dokumenttyp separat im Abschnitt „Dokumenttyp“ überprüfen. Diese Punktzahl berücksichtigt die Gesamtleistung des Modells sowie die Größe und Qualität des Datasets.
- Schlecht (0–49)
- Durchschnitt (50–69)
- Gut (70–89)
- Ausgezeichnet (90–100)
Wählen Sie Detaillierte Modellbewertungen aus, um zum Abschnitt Messung für detaillierte Informationen zu wechseln.