Document Understanding – Importieren von Dokumenten

document-understanding

2020.10

false

Document Understanding-Benutzerhandbuch.

Wichtig :

Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.

Importieren von Dokumenten

Das AI Center unterstützt keine Dateinamen mit Sonderzeichen. Daher empfehlen wir dringend, vor dem Importieren von Dokumenten in den Data Manager darauf zu achten, dass ihre Namen nur lateinische Buchstaben, Ziffern, Bindestriche (-) und Unterstriche (_) enthalten.

Data Manager unterstützt 4 Import-Arten:

Schemaimport
Importieren von unformatierten Dokumenten
Data Manager-Dataset-Import
Dataset-Import von Machine Learning Extractor Trainer (VORSCHAU-Funktion)

Schemaimport

Mit folgenden Schritten starten Sie eine neue Instanz von Data Manager mit dem gleichen Schema wie eine vorhandene Instanz:

Geben Sie eine zufällige Zeichenfolge im Filter der vorhandenen Instanz ein, sodass keine Dokumente in der Ansicht verbleiben.
Klicken Sie auf die Schaltfläche „Exportieren“. Eine ZIP-Datei wird exportiert.
Importieren Sie die ZIP-Datei direkt in die neue Instanz von Data Manager (entpacken Sie nicht). Das Schema wird importiert.

Sie können auch eines der vordefinierten Schemas verwenden, die im Abschnitt „Konfigurieren von Data Manager“ dieser Dokumentation angegeben sind.

Importieren von unformatierten Dokumenten

Die Dokumenttypen, die zur Beschriftung importiert werden können, sind: .pdf, .tiff, .png, .jpg. Dies sind die Schritte:

Klicken Sie auf Importieren. Das Fenster Daten importieren wird angezeigt.
Geben Sie im Feld Batchname einen Namen für das Batch an. Auf diese Weise können Sie diese Dokumente später einfach mit dem Filter-Dropdownmenü filtern und finden.
Wenn Sie diesen Dokumentstapel zum Training eines ML-Modells verwenden möchten, lassen Sie das Kontrollkästchen Dies zu einem Testsatz machen leer.
Wenn Sie diesen Dokumentstapel zur Auswertung eines ML-Modells verwenden möchten (d. h. Messen seiner Leistung), aktivieren Sie das Kontrollkästchen Dies zu einem Testsatz machen. Dadurch wird sichergestellt, dass die Daten von den Trainingspipelines ignoriert werden.
Laden Sie eine Datei oder einen Satz von Dateien hoch oder ziehen Sie sie in den Abschnitt Dateien durchsuchen oder ablegen.
Jeder Dateityp wird akzeptiert. Die Anwendung überprüft sie und gibt an, wie viele davon importiert werden können. .zip-Dateien werden ebenfalls akzeptiert. Die Anwendung entpackt das Archiv und durchläuft die Ordner rekursiv, um alle enthaltenen Dateien zu finden.

Beim Importieren einer Dataset-ZIP-Datei, die aus einer anderen Data Manager-Instanz exportiert wurde, werden die Dokumente mit den Beschriftungen importiert. Dies funktioniert nur, wenn das Dataset-Schema dasselbe oder eine Teilmenge des bereits vorhandenen Schemas im Data Manager ist.

Data Manager-Dataset-Import

Sie müssen die ZIP-Datei abrufen, die ursprünglich exportiert wurde, und sie direkt in die neue Data Manager-Instanz importieren, um ein Dataset zu importieren, das zuvor auf einer anderen Instanz von Data Manager beschriftet wurde. Wenn Ihre neue Data Manager Instanz vollständig leer ist (keine Daten und keine Felder definiert), werden sowohl die Daten als auch das Schema importiert. Wenn in Ihrer neuen Data Manager-Instanz bereits Felder definiert sind, muss das neu importierte Dataset die gleichen Felder oder eine Teilmenge dieser Felder haben. Andernfalls wird der Import abgelehnt.

Dataset-Import von Validation Station (Vorschaufunktion)

Da Ihre RPA Workflow Dokumente mit einem vorhandenen ML-Modell verarbeitet, können einige Dokumente eine menschliche Validierung mithilfe der Aktivität Validation Station erfordern (verfügbar für „Attended Bots“ oder im Browser mithilfe von Orchestrator Action Center).

Die in der Validation Station generierten validierten Daten können mit der Aktivität Machine Learning Extractor Trainer exportiert und zum Trainieren von ML-Modellen anhand der hier beschriebenen Funktion verwendet werden.

Folgende Schritte sind erforderlich:

Konfigurieren Sie ML Extractor Trainer, um Daten in einen Ordner mit Pfad <Trainer/Ausgabe/Ordner> auszugeben (verwenden Sie einen beliebigen leeren Ordnerpfad).
Führen Sie RPA Workflow aus, einschließlich Validation Station und ML Extractor Trainer.
Im Ausgabeordner erstellt ML Extractor Trainer 3 Unterordner mit Namen: „documents“, „metadata“ und „predictions“.
Zippen Sie <Trainer/Ausgabe/Ordner>, um eine ZIP-Datei wie TrainerAusgabeOrdner.zip zu erhalten.
Importieren Sie die ZIP-Datei in Data Manager. Der Data Manager erkennt, dass der Import Daten enthält, die von ML Extractor Trainer erzeugt wurden, und importiert die Daten entsprechend.
Exportieren Sie Daten wie gewohnt, und laden Sie sie in AI Center hoch.
Starten Sie die Trainings- oder vollständige Pipeline und wählen Sie das ML-Paket und die Version aus, die Sie anpassen möchten.

Auf dieser Seite

Schemaimport
Importieren von unformatierten Dokumenten
Data Manager-Dataset-Import
Dataset-Import von Validation Station (Vorschaufunktion)

War diese Seite hilfreich?

Vorherige (previous)Erstellen und Konfigurieren von Feldern

WeiterBeschriften von Dokumenten