Document Understanding – Dataset-Diagnosen

document-understanding

2024.10

false

Document Understanding-Benutzerhandbuch.

Wichtig :

Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.

Dataset-Diagnose

Die Funktion „Dataset-Diagnose“ im Document Manager, die Feedback und Hinweise bietet, um effektive Trainings-Datasets zu erstellen und die Modellgenauigkeit zu verbessern.

Das Training eines neuen Modells von Grund auf kann manchmal eine sehr anspruchsvolle Aufgabe sein.

Dataset Diagnostics feature helps you build effective datasets by providing feedback and hints of the steps needed to achieve good accuracy for the trained model.

Die Dataset-Diagnose befindet sich in der Verwaltungsleiste des Document Managers und bietet visuelle und schriftliche Anleitungen während des gesamten Trainings eines neuen Modells.

In der Verwaltungsleiste sind drei Dataset-Statusebenen verfügbar:

Red - More labelled training data is required.
Orange - More labelled training data is recommended.
Green - The needed level of labelled training data is achieved.

Wenn in der Sitzung keine Felder erstellt werden, ist die Statusebene des Datasets grau.

Weitere Informationen zu die einzelnen Stati finden Sie im Popup-Menü „Dataset-Diagnose“.Wählen Sie die Taste „Dataset-Diagnose“, um sie zu öffnen.

Dataset tab

Enthält Informationen zu den Dokumenten, die zum Trainieren des Modells verwendet werden, sowie zur Gesamtzahl der importierten Seiten und der Gesamtzahl der beschrifteten Seiten.

Die Trennung in der Farbstatusleiste wird durch die empfohlene Anzahl der beschrifteten Seiten bestimmt, die zum Trainieren des Modells erforderlich sind, und dem tatsächlichen Status Ihres Datasets, einschließlich beschrifteter und nicht beschrifteter Daten. Wenn Sie mit dem Mauszeiger auf jede Farbe der Statusleiste zeigen, werden zusätzliche Informationen zu jedem Status in einem Tooltip angezeigt.

Die auf der Registerkarte „Dataset“ verfügbaren Zahlen werden basierend auf der Anzahl der regulären Felder und Elementfelder aus der Trainingssitzung berechnet.

Red - The dataset requires more labelled data for training the model.
Orange - For an increased level of accuracy on the trained model, more labelled data is recommended. You can choose to proceed further with the actual data, but the level of accuracy is not as high as wanted.
Green - The labelled data is enough for the dataset to be trained accordingly and to receive accurate information.

Fields tab

Stellt Informationen zu jedem beschrifteten Feld bereit, genauer gesagt die Gesamtzahl der Trainingsseiten, auf denen die Beschriftung mit Tags versehen ist, die Gesamtzahl der ausgewerteten Dokumente mit dem beschrifteten Feld und den Status für den aktuellen Trainingssatz.

Field - The name of the labelled field.
Training Pages - The number of pages in the Training+Validation set on which the field is labelled.
Evaluation Documents - The number of documents in the Evaluation set on which this field is labelled.
Status - The status of each field, marked by three options, Red, Orange, and Green.

Here are all the options available for the Status bar:

Red - There is insufficient data about the field, more labels being required.
Orange - More pages need to be labelled for the results to be relevant.
Green - There are enough labelled pages for the results to be relevant.

Die Tasten Aktualisieren und Schließen gelten für beide Registerkarten, d. h., wenn die Taste Aktualisieren auf der Registerkarte Dataset gewählt wird, wird auch die Registerkarte Felder aktualisiert.

Refresh - Use the refresh option after alterations have been made to the dataset, whether on the number of total pages or the number of labelled pages. The popup menu automatically refreshes every few minutes and it takes place on both tabs, simultaneously. Use this function when a refresh is needed outside the automatic window.
Schließen – Nachdem Sie alle erforderlichen Informationen gesammelt haben, schließen Sie das Menü mit der Schaltfläche Schließen . Das gesamte Popup-Menü wird geschlossen, unabhängig von der Registerkarte, von der die Schaltfläche ausgewählt wird.

Registerkarte „Rechner“

Die Registerkarte „Rechner“ bietet dieselben Informationen wie die, die Sie bereits beim Erstellen eines neuen Dokumenttyps hinzugefügt haben.

Sie können den Dataset-Rechner verwenden, um Teile der Informationen zu ändern, die ursprünglich beim Erstellen des Dokumenttyps hinzugefügt wurden.

Sie können die folgenden Felder mit dem Dataset-Rechner ändern:

Vorgefertigter Dokumenttyp
Anzahl der Sprachen
Anzahl der Layouts

Die folgenden Felder auf der Registerkarte „Rechner“ sind schreibgeschützt. Ihre Werte werden durch eine Schnittmenge des verwendeten vorgefertigten Dokumenttyps und der aktuellen Schemafelder bestimmt:

Vorgefertigte reguläre Felder
Vorgefertigte Spaltenfelder
Vorgefertigte Klassifizierungsfelder

Das Ändern eines der genannten Felder wirkt sich auf die empfohlene Größe des Datasets aus. Die Registerkarte „Dataset“ des aktuell geöffneten Popups wird basierend auf der neuen empfohlenen Größe mit den Status Grün/Gelb/Rot aktualisiert. Sobald die Änderungen gespeichert wurden, berücksichtigt der allgemeine Indikator für die Dataset-Diagnose den neuen Zustand der Registerkarte „Dataset“.

Angenommen, Sie haben bei der Erstellung des Dokumenttyps „Rechnungen“ (Invoices) für das vorgefertigte Dokumenttypfeld ausgewählt. Wenn Sie Ihre ursprüngliche Auswahl zu etwas anderem ändern, z. B. Belege, dann assimiliert das Dataset die Informationen für beide Dokumenttypen und zeigt die Informationen an, die sich von beiden ausgewählten Typen (Rechnungen (Invoices) und Belege (Receipts)) überschneiden.

Wenn Felder nur in einem der Modelle vorhanden sind, werden sie in den benutzerdefinierten regulären Feldern oder in den benutzerdefinierten Spaltenfeldern angezeigt, da diese Änderungen sowohl für reguläre als auch für Klassifizierungsfelder gelten.

Auf dieser Seite

Menü „Dataset-Diagnose“
Dataset tab
Fields tab
Registerkarte „Rechner“

War diese Seite hilfreich?

Vorherige (previous)Kontrollkästchen und Signaturen

WeiterOCR-Dienste

Menü „Dataset-Diagnose“​

Dataset tab​

Fields tab​

Registerkarte „Rechner“​

War diese Seite hilfreich?

Menü „Dataset-Diagnose“

Dataset tab

Fields tab

Registerkarte „Rechner“