- Überblick
- Erste Schritte
- Aktivitäten
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Aktivitäten (UiPath.IntelligentOCR.Activities)
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.Omnipage.Activities
- UiPath.PDF.Aktivitäten (UiPath.PDF.Activities)
- Insights-Dashboards
- Document Understanding-Prozess
- Schnellstart-Tutorials
- Framework-Komponenten
- Überblick
- Document Understanding-Aktivitäten
- Übersicht zur Dokumentklassifizierung
- „Klassifizierer konfigurieren“-Assistent von Classify Document Scope
- Intelligenter Schlüsselwortklassifizierer
- Schlüsselwortbasierte Classifier (Keyword Based Classifier)
- Machine Learning Classifier
- Generativer Klassifizierer
- Dokumentklassifizierung – verwandte Aktivitäten
- Datenverbrauch
- API-Aufrufe
- Modelldetails
- Überblick
- Document Understanding – ML-Paket
- DocumentClassifier – ML-Paket
- ML-Pakete mit OCR-Funktionen
- 1040 – ML-Paket
- 1040 Anlage C – ML-Paket
- 1040 Anlage D – ML-Paket
- 1040 Anlage E – ML-Paket
- 1040x – ML-Paket
- 3949a – ML-Paket
- 4506T – ML-Paket
- 709 – ML-Paket
- 941x – ML-Paket
- 9465 – ML-Paket
- ACORD125 – ML-Paket
- ACORD126 – ML-Paket
- ACORD131 – ML-Paket
- ACORD140 – ML-Paket
- ACORD25 – ML-Paket
- Bank Statements – ML-Paket
- BillsOfLading – ML-Paket
- Certificate of Incorporation – ML-Paket
- Certificates of Origin – ML-Paket
- Checks – ML-Paket
- Children Product Certificate – ML-Paket
- CMS1500 – ML-Paket
- EU Declaration of Conformity – ML-Paket
- Financial Statements – ML-Paket
- FM1003 – ML-Paket
- I9 – ML-Paket
- ID Cards – ML-Paket
- Invoices – ML-Paket
- InvoicesAustralia – ML-Paket
- InvoicesChina – ML-Paket
- Rechnungen Hebräisch – ML-Paket
- InvoicesIndia – ML-Paket
- InvoicesJapan – ML-Paket
- Invoices Shipping – ML-Paket
- Packing Lists – ML-Paket
- Gehaltsabrechnungen (Pay slips) – ML-Paket
- Passports – ML-Paket
- Purchase Orders – ML-Paket
- Zahlungsbelege – ML-Paket
- RemittanceAdvices – ML-Paket
- UB04 – ML-Paket
- Utility Bills – ML-Paket
- Vehicle Titles – ML-Paket
- W2 – ML-Paket
- W9 – ML-Paket
- Andere out-of-the-box ML-Pakete
- Öffentliche Endpunkte
- Einschränkungen für den Datenverkehr
- OCR-Konfiguration
- Pipelines
- OCR-Dienste
- Unterstützte Sprachen
- Deep Learning
- Daten und Sicherheit
- Lizenzierungs- und Gebührenlogik

Document Understanding classic user guide
Über Pipelines
Die Möglichkeit, Extraktoren und Klassifikatoren zu trainieren, ist jetzt einfacher durch die Nutzung der Funktionen Ein-Klick-Extraktion und Ein-Klick-Klassifizierung .
Document Understanding-ML-Pakete können alle drei Pipelinetypen ausführen:
Nach Abschluss hat eine Pipelineausführung zugehörige Ausgaben und Protokolle. Um diese Informationen auf der Registerkarte Pipelines in der linken Seitenleiste anzuzeigen, klicken Sie auf eine Pipeline. Es öffnet sich die Pipelineansicht, die aus Folgendem besteht:
- Pipelinedetails wie Typ, Name und Version des ML-Pakets, Dataset, GPU-Nutzung, Parameter und Ausführungszeit
- Der Bereich Ausgaben ; dies beinhaltet immer eine
_results.json-Datei mit einer Zusammenfassung der Pipelinedetails - Seite Protokolle; die Protokolle können auch auf der Registerkarte ML-Protokolle in der linken Seitenleiste abgerufen werden
Alle Pipelines geben Punktzahlen in drei verschiedenen Dateien zurück:
evaluation_scores_<package name>.txt– Diese Datei enthält Genauigkeitsbewertungen für alle Felder.evaluation_<package name>.xlsx– Diese Datei enthält eine detaillierte Genauigkeitsaufschlüsselung pro Feld und pro Batch sowie einen Direktvergleich für jedes Feld, mit farblicher Hervorhebung für fehlende (rot) oder teilweise übereinstimmende (gelb) Felder.evaluation_F1_scores.txt– Diese Datei enthält die F1-Ergebnisse für alle Felder.
Die Genauigkeit wird ermittelt, indem die Anzahl der Übereinstimmungen durch die Gesamtzahl der Vorhersagen geteilt wird. Eine Übereinstimmung erhält eine Gewichtung von 1, während eine teilweise Übereinstimmung eine Gewichtung erhält, die der Levenshtein-Distanz zwischen der Vorhersage und dem wahren Wert entspricht.
Teilweise Übereinstimmungen mit der Levenshtein-Distanz sind die Standardbewertungsmethode für Felder mit dem Inhaltstyp: String. Alle anderen Inhaltstypen (Datumsangaben, Nummern, ID-Nummern, Telefonnummern) verwenden nur die exakte Übereinstimmungsbewertung.
Für String-Felder können Sie diese Einstellung auf der Registerkarte Erweitert des Dialogfelds Feldeinstellungen in der Ansicht Dokumenttyp von Document Understanding ändern.
Wenn ein Auswertungs-Dataset beispielsweise 100 Dokumente enthält und ein Feld, z. B. „Bestellnummer“, auf der Hälfte der Dokumente erscheint und das Modell dann 40 davon korrekt vorhergesagt hat und 10 von ihnen mit einer Levenshtein-Distanz von 0,8 teilweise korrekt ist, dann ist die die Genauigkeit (40 + 10 x 0,8 + 50)/100 = 98 % wäre.
Beachten Sie, dass die 50 Dokumente, bei denen das Feld fehlt und das Modell nichts vorhergesagt hat, ebenfalls als erfolgreiche Vorhersagen gezählt werden.
Bei Trainingspipelines werden die Punktzahlen für das Validierungs-Dataset berechnet. Das Validierungs-Dataset ist eine zufällig ausgewählte Teilmenge von 20 % des gesamten Trainings-Datasets, der in der Trainingspipeline eingereicht wurde.
Trainingspipelines oder vollständige Pipelines können auch verwendet werden für:
- Feinabstimmung ML-Modelle mit Daten aus der Validation Station
- Automatische Feinabstimmung eines ML-Modells
Hinweis:
Trainingspipelines und vollständige Pipelines unterstützen Trainingssätze von maximal 18.000 beschrifteten Seiten.