- Überblick
- Document Understanding-Prozess
- Schnellstart-Tutorials
- Framework-Komponenten
- Überblick
- Document Understanding-Aktivitäten
- Übersicht zur Dokumentklassifizierung
- „Klassifizierer konfigurieren“-Assistent von Classify Document Scope
- Intelligenter Schlüsselwortklassifizierer
- Schlüsselwortbasierte Classifier (Keyword Based Classifier)
- Machine Learning Classifier
- Generativer Klassifizierer
- Dokumentklassifizierung – verwandte Aktivitäten
- Datenverbrauch
- API-Aufrufe
- ML-Pakete
- Überblick
- Document Understanding – ML-Paket
- DocumentClassifier – ML-Paket
- ML-Pakete mit OCR-Funktionen
- 1040 – ML-Paket
- 1040 Anlage C – ML-Paket
- 1040 Anlage D – ML-Paket
- 1040 Anlage E – ML-Paket
- 1040x – ML-Paket
- 3949a – ML-Paket
- 4506T – ML-Paket
- 709 – ML-Paket
- 941x – ML-Paket
- 9465 – ML-Paket
- 990 – ML-Paket – Vorschau
- ACORD125 – ML-Paket
- ACORD126 – ML-Paket
- ACORD131 – ML-Paket
- ACORD140 – ML-Paket
- ACORD25 – ML-Paket
- Bank Statements – ML-Paket
- BillsOfLading – ML-Paket
- Certificate of Incorporation – ML-Paket
- Certificates of Origin – ML-Paket
- Checks – ML-Paket
- Children Product Certificate – ML-Paket
- CMS1500 – ML-Paket
- EU Declaration of Conformity – ML-Paket
- Financial Statements – ML-Paket
- FM1003 – ML-Paket
- I9 – ML-Paket
- ID Cards – ML-Paket
- Invoices – ML-Paket
- InvoicesChina – ML-Paket
- Rechnungen Hebräisch – ML-Paket
- InvoicesIndia – ML-Paket
- InvoicesJapan – ML-Paket
- Invoices Shipping – ML-Paket
- Packing Lists – ML-Paket
- Passports – ML-Paket
- Gehaltsabrechnungen (Pay slips) – ML-Paket
- Purchase Orders – ML-Paket
- Receipts – ML-Paket
- RemittanceAdvices – ML-Paket
- UB04 – ML-Paket
- Utility Bills – ML-Paket
- Vehicle Titles – ML-Paket
- W2 – ML-Paket
- W9 – ML-Paket
- Andere out-of-the-box ML-Pakete
- Öffentliche Endpunkte
- Hardwareanforderungen
- Pipelines
- Dokumentmanager
- OCR-Dienste
- Deep Learning
- Insights-Dashboards
- Document Understanding – in der Automation Suite bereitgestellt
- Document Understanding – im eigenständigen AI Center bereitgestellt
- Aktivitäten
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Aktivitäten (UiPath.IntelligentOCR.Activities)
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.Omnipage.Activities
- UiPath.PDF.Aktivitäten (UiPath.PDF.Activities)
Dataset-Diagnose
Das Training eines neuen Modells von Grund auf kann manchmal eine sehr anspruchsvolle Aufgabe sein.
Die Funktion Dataset-Diagnose hilft Ihnen beim Erstellen effektiver Datasets, indem es Feedback und Hinweise zu den Schritten bereitstellt, die erforderlich sind, um eine gute Genauigkeit für das trainierte Modell zu erreichen.
Die Dataset-Diagnose befindet sich in der Verwaltungsleiste des Document Managers und bietet visuelle und schriftliche Anleitungen während des gesamten Trainings eines neuen Modells.
In der Verwaltungsleiste sind drei Dataset-Statusebenen verfügbar:
- Rot – Weitere beschriftete Trainingsdaten erforderlich.
- Orange – Weitere beschriftete Trainingsdaten werden empfohlen.
- Grün – Die erforderliche Menge an beschrifteten Trainingsdaten ist erreicht.
Wenn in der Sitzung keine Felder erstellt werden, ist die Statusebene des Datasets grau.
Weitere Informationen zu jedem Status finden Sie im Popup-Menü der Dataset-Diagnose. Klicken Sie auf die Schaltfläche „Dataset-Diagnose“, um sie zu öffnen.
Enthält Informationen zu den Dokumenten, die zum Trainieren des Modells verwendet werden, sowie zur Gesamtzahl der importierten Seiten und der Gesamtzahl der beschrifteten Seiten.
Die Trennung in der Farbstatusleiste wird durch die empfohlene Anzahl der beschrifteten Seiten bestimmt, die zum Trainieren des Modells erforderlich sind, und dem tatsächlichen Status Ihres Datasets, einschließlich beschrifteter und nicht beschrifteter Daten. Wenn Sie mit dem Mauszeiger auf jede Farbe der Statusleiste zeigen, werden zusätzliche Informationen zu jedem Status in einem Tooltip angezeigt.
Die auf der Registerkarte „Dataset“ verfügbaren Zahlen werden basierend auf der Anzahl der regulären Felder und Elementfelder aus der Trainingssitzung berechnet.
- Rot – Das Dataset erfordert mehr beschriftete Daten zum Trainieren des Modells.
- Orange – Für eine höhere Genauigkeit des trainierten Modells werden mehr beschriftete Daten empfohlen. Sie können mit den tatsächlichen Daten fortfahren, aber die Genauigkeit ist nicht so hoch wie gewünscht.
- Grün – Die beschrifteten Daten reichen aus, um das Dataset entsprechend zu trainieren und genaue Informationen zu erhalten.
Stellt Informationen zu jedem beschrifteten Feld bereit, genauer gesagt die Gesamtzahl der Trainingsseiten, auf denen die Beschriftung mit Tags versehen ist, die Gesamtzahl der ausgewerteten Dokumente mit dem beschrifteten Feld und den Status für den aktuellen Trainingssatz.
- Feld – Der Name des beschrifteten Felds.
- Trainingsseiten – Die Anzahl der Seiten im Set Training + Validierung, auf denen das Feld beschriftet ist.
- Evaluierungsdokumente – Die Anzahl der Dokumente im Evaluierungsset, für die dieses Feld beschriftet ist.
- Status – Der Status jedes Felds, gekennzeichnet durch drei Optionen, Rot, Orange und Grün.
Hier sind alle Optionen, die für die Statusleiste verfügbar sind:
- Rot – Es liegen zu wenig Daten zu diesem Feld vor, weitere Beschriftungen sind erforderlich.
- Orange – Weitere Seiten müssen beschriftet werden, damit die Ergebnisse relevant sind.
- Grün – Es gibt genügend beschriftete Seiten, so dass die Ergebnisse relevant sind.
Die Schaltflächen Aktualisieren und Schließen gelten für beide Registerkarten, d. h., wenn die Schaltfläche Aktualisieren auf der Registerkarte Dataset geklickt wird, wird die Registerkarte Felder ebenfalls aktualisiert.
- Aktualisieren – Verwenden Sie die Aktualisierungsoption, nachdem Änderungen am Dataset vorgenommen wurden, sei es an der Anzahl der Gesamtseiten oder der Anzahl der beschrifteten Seiten. Das Popup-Menü wird alle paar Minuten automatisch aktualisiert und auf beiden Registerkarten gleichzeitig angezeigt. Verwenden Sie diese Funktion, wenn eine Aktualisierung außerhalb des automatischen Fensters erforderlich ist.
- Schließen – Nachdem Sie alle erforderlichen Informationen gesammelt haben, schließen Sie das Menü, indem Sie auf die Schaltfläche Schließen klicken. Das gesamte Popup-Menü wird geschlossen, unabhängig von der Registerkarte, von der aus auf die Schaltfläche geklickt wird.
Sie können die folgenden Felder mit dem Dataset-Rechner ändern:
- Vorgefertigter Dokumenttyp
- Anzahl der Sprachen
- Anzahl der Layouts
Die folgenden Felder auf der Registerkarte „Rechner“ sind schreibgeschützt. Ihre Werte werden durch eine Schnittmenge des verwendeten vorgefertigten Dokumenttyps und der aktuellen Schemafelder bestimmt:
- Vorgefertigte reguläre Felder
- Vorgefertigte Spaltenfelder
- Vorgefertigte Klassifizierungsfelder
Das Ändern eines der genannten Felder wirkt sich auf die empfohlene Größe des Datasets aus. Die Registerkarte „Dataset“ des aktuell geöffneten Popups wird basierend auf der neuen empfohlenen Größe mit den Status Grün/Gelb/Rot aktualisiert. Sobald die Änderungen gespeichert wurden, berücksichtigt der allgemeine Indikator für die Dataset-Diagnose den neuen Zustand der Registerkarte „Dataset“.
Angenommen, Sie haben bei der Erstellung des Dokumenttyps „Rechnungen“ (Invoices) für das vorgefertigte Dokumenttypfeld ausgewählt. Wenn Sie Ihre ursprüngliche Auswahl zu etwas anderem ändern, z. B. Belege, dann assimiliert das Dataset die Informationen für beide Dokumenttypen und zeigt die Informationen an, die sich von beiden ausgewählten Typen (Rechnungen (Invoices) und Belege (Receipts)) überschneiden.
Wenn Felder nur in einem der Modelle vorhanden sind, werden sie in den benutzerdefinierten regulären Feldern oder in den benutzerdefinierten Spaltenfeldern angezeigt, da diese Änderungen sowohl für reguläre als auch für Klassifizierungsfelder gelten.