- Überblick
- Erste Schritte
- Aktivitäten
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Aktivitäten (UiPath.IntelligentOCR.Activities)
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.Omnipage.Activities
- UiPath.PDF.Aktivitäten (UiPath.PDF.Activities)
- Insights-Dashboards
- Document Understanding-Prozess
- Schnellstart-Tutorials
- Framework-Komponenten
- Überblick
- Document Understanding-Aktivitäten
- Übersicht zur Dokumentklassifizierung
- „Klassifizierer konfigurieren“-Assistent von Classify Document Scope
- Intelligenter Schlüsselwortklassifizierer
- Schlüsselwortbasierte Classifier (Keyword Based Classifier)
- Machine Learning Classifier
- Generativer Klassifizierer
- Dokumentklassifizierung – verwandte Aktivitäten
- Datenverbrauch
- API-Aufrufe
- ML-Pakete
- Überblick
- Document Understanding – ML-Paket
- DocumentClassifier – ML-Paket
- ML-Pakete mit OCR-Funktionen
- 1040 – ML-Paket
- 1040 Anlage C – ML-Paket
- 1040 Anlage D – ML-Paket
- 1040 Anlage E – ML-Paket
- 1040x – ML-Paket
- 3949a – ML-Paket
- 4506T – ML-Paket
- 709 – ML-Paket
- 941x – ML-Paket
- 9465 – ML-Paket
- ACORD131 – ML-Paket
- ACORD140 – ML-Paket
- ACORD25 – ML-Paket
- Bank Statements – ML-Paket
- BillsOfLading – ML-Paket
- Certificate of Incorporation – ML-Paket
- Certificates of Origin – ML-Paket
- Checks – ML-Paket
- Children Product Certificate – ML-Paket
- CMS1500 – ML-Paket
- EU Declaration of Conformity – ML-Paket
- Financial Statements – ML-Paket
- FM1003 – ML-Paket
- I9 – ML-Paket
- ID Cards – ML-Paket
- Invoices – ML-Paket
- InvoicesAustralia – ML-Paket
- InvoicesChina – ML-Paket
- Rechnungen Hebräisch – ML-Paket
- InvoicesIndia – ML-Paket
- InvoicesJapan – ML-Paket
- Invoices Shipping – ML-Paket
- Packing Lists – ML-Paket
- Gehaltsabrechnungen (Pay slips) – ML-Paket
- Passports – ML-Paket
- Purchase Orders – ML-Paket
- Receipts – ML-Paket
- RemittanceAdvices – ML-Paket
- UB04 – ML-Paket
- Utility Bills – ML-Paket
- Vehicle Titles – ML-Paket
- W2 – ML-Paket
- W9 – ML-Paket
- Andere out-of-the-box ML-Pakete
- Öffentliche Endpunkte
- Einschränkungen für den Datenverkehr
- OCR-Konfiguration
- Pipelines
- OCR-Dienste
- Unterstützte Sprachen
- Deep Learning
- Lizenzierung
Document Understanding-Benutzerhandbuch.
Über Pipelines
Document UnderstandingTM ML Packages can run all three types of pipelines:
Nach Abschluss hat eine Pipelineausführung zugehörige Ausgaben und Protokolle. Um diese Informationen auf der Registerkarte Pipelines in der linken Seitenleiste anzuzeigen, klicken Sie auf eine Pipeline. Es öffnet sich die Pipelineansicht, die aus Folgendem besteht:
- Pipelinedetails wie Typ, Name und Version des ML-Pakets, Dataset, GPU-Nutzung, Parameter und Ausführungszeit
- Bereich Ausgaben; dieser enthält immer eine
_results.json
-Datei mit einer Zusammenfassung der Pipelinedetails - Seite Protokolle; die Protokolle können auch auf der Registerkarte ML-Protokolle in der linken Seitenleiste abgerufen werden
evaluation_scores_<package name>.txt
– Diese Datei enthält Genauigkeitsbewertungen für alle Felder.evaluation_<package name>.xlsx
– Diese Datei enthält eine detaillierte Genauigkeitsaufschlüsselung pro Feld und pro Batch sowie einen Direktvergleich für jedes Feld, mit farblicher Hervorhebung für fehlende (rot) oder teilweise übereinstimmende (gelb) Felder.evaluation_F1_scores.txt
– Diese Datei enthält die F1-Ergebnisse für alle Felder.
Teilweise Übereinstimmungen mit der Levenshtein-Distanz sind die Standardbewertungsmethode für Felder mit dem Inhaltstyp: String. Alle anderen Inhaltstypen (Datumsangaben, Nummern, ID-Nummern, Telefonnummern) verwenden nur die exakte Übereinstimmungsbewertung.
Für String-Felder können Sie diese Einstellung auf der Registerkarte Erweitert des Dialogfelds Feldeinstellungen in der Ansicht Dokumenttyp von Document Understanding ändern.
Wenn ein Auswertungs-Dataset beispielsweise 100 Dokumente enthält und ein Feld, z. B. „Bestellnummer“, auf der Hälfte der Dokumente erscheint und das Modell dann 40 davon korrekt vorhergesagt hat und 10 von ihnen mit einer Levenshtein-Distanz von 0,8 teilweise korrekt ist, dann ist die die Genauigkeit (40 + 10 x 0,8 + 50)/100 = 98 % wäre.
Beachten Sie, dass die 50 Dokumente, bei denen das Feld fehlt und das Modell nichts vorhergesagt hat, ebenfalls als erfolgreiche Vorhersagen gezählt werden.
Bei Trainingspipelines werden die Punktzahlen für das Validierungs-Dataset berechnet. Das Validierungs-Dataset ist eine zufällig ausgewählte Teilmenge von 20 % des gesamten Trainings-Datasets, der in der Trainingspipeline eingereicht wurde.
Trainingspipelines oder vollständige Pipelines können auch verwendet werden für:
- Feinabstimmung von ML-Modellen mit Daten aus der Validation Station
- Automatische Feinabstimmung eines ML-Modells
Trainingspipelines und vollständige Pipelines unterstützen Trainingssätze von maximal 18.000 beschrifteten Seiten.