Abonnieren

UiPath Document Understanding

UiPath Document Understanding

Importieren von Dokumenten

Mit dem Dialogfeld Daten importieren können Sie einfach neue Dokumente importieren, die beschriftet oder überarbeitet werden sollen.

Klicken Sie in der Verwaltungsleiste auf die Schaltfläche Importieren importimport.

Das Dialogfeld enthält die folgenden Steuerelemente:

  • Textfeld Batchname – es ist obligatorisch, einen Namen für den Export einzugeben. Andernfalls ist der Abschnitt Dateien durchsuchen oder ablegen deaktiviert. Ein gültiger Name darf bis zu 24 Zeichen lang sein und darf keine Sonderzeichen enthalten.
  • Make this an evaluation set checkbox - if selected, the dataset is used for evaluation purposes.
  • Kontrollkästchen Große Dokumente ermöglichen – Wenn diese Option ausgewählt ist, können Sie Dokumente mit mehr als 150 Seiten hochladen.
  • Abschnitt Dateien durchsuchen oder ablegen – Klicken Sie auf Dateien zum Hochladen durchsuchen, um das Verzeichnis zu suchen. Alternativ ziehen Sie einfach die Dateien durch Ziehen und Ablegen in den Rahmen.
  • Statusabschnitt – Klicken Sie auf (Vorheriges Importprotokoll laden), um den Status des letzten Imports zu überprüfen. Beim Hochladen von Daten erhalten Sie im Abschnitt Status eine Übersicht über Ihre Dateien und Sie werden aufgefordert, mit dem Import fortzufahren, indem Sie auf JA klicken oder den Import abbrechen, indem Sie auf ABBRECHEN klicken.
846846

❗️

Beschriften von mehrseitigen Dokumenten

Die Version 2021.10 des Data Managers unterstützt die Beschriftung von mehrseitigen Dokumenten. Dies ist eine größere Änderung gegenüber früheren Versionen, bei denen jede Seite separat beschriftet wurde. Das Beschriften und Exportieren von mehrseitigen Dokumenten geht davon aus, dass jedes Dokument ein einzelnes logisches Dokument darstellt. Beispielsweise kann ein sechsseitiges Dokument eine einzelne sechsseitiges Rechnung enthalten, darf aber keine drei verschiedenen Rechnungen à zwei Seiten enthalten. Dies ist insbesondere für Auswertungssätze wichtig.

Diese Anforderung ist für abwärtskompatible Exporte nicht relevant.

Importtypen

Data Manager unterstützt 4 Import-Arten:

Schemaimport


Wenn Sie eine neue Data Manager-Sitzung mit dem gleichen Schema wie in einer vorhandenen Sitzung starten möchten, können Sie die folgenden Schritte ausführen:

  1. Klicken Sie in der Verwaltungsleiste auf die Schaltfläche Exportieren exportexport.
  2. Aktivieren Sie im Dialogfeld Dateien exportieren die Option Schema.
  3. Klicken Sie auf die Schaltfläche Exportieren innerhalb des Dialogfelds. Eine Datei vom Typ .zip wird exportiert.
  4. Klicken Sie in der Verwaltungsleiste auf die Schaltfläche Importieren importimport.
  5. Laden Sie die Datei vom Typ .zip hoch oder legen Sie sie direkt in der neuen Data Manager-Sitzung ab (nicht entpacken). In diesem Schritt können Sie auch ein vordefiniertes Schema hochladen.
  6. Klicken Sie im Abschnitt Status auf JA, um mit dem Import fortzufahren. Das Schema wird importiert.

You could also use one of the predefined schemas provided in the Use a Predefined Schema page.

Importieren von unformatierten Dokumenten


Die Dokumenttypen, die zur Beschriftung importiert werden können, sind: .pdf, .tiff, .png, .jpg.

.zip files are not supported for raw documents import.

OCR settings need to be configured before import.

Führen Sie die folgenden Schritte aus:

  1. Klicken Sie auf die Schaltfläche Importieren importimport. Das Dialogfeld Daten importieren wird angezeigt.
  2. Geben Sie im Feld Batchname einen Namen für das Batch an. Auf diese Weise können Sie diese Dokumente später einfach mit dem Suchen-Dropdownmenü filtern.
    • Wenn Sie diesen Dokumenten-Batch zum Training eines ML-Modells verwenden möchten, lassen Sie das Kontrollkästchen Zu einem Auswertungssatz machen deaktiviert.
    • Wenn Sie diesen Dokumenten-Batch zur Auswertung eines ML-Modells verwenden möchten (d. h. zum Messen seiner Leistung), aktivieren Sie das Kontrollkästchen Zu einem Auswertungssatz machen. Dadurch wird sichergestellt, dass die Daten von den Trainingspipelines ignoriert werden.
  3. Wenn Sie Dokumente mit mehr als 150 Seiten haben, aktivieren Sie das Kontrollkästchen Große Dokumente ermöglichen. Andernfalls lassen Sie das Kontrollkästchen deaktiviert.
  4. Laden Sie eine Datei oder einen Satz von Dateien hoch oder ziehen Sie sie in den Abschnitt Dateien durchsuchen oder ablegen.
  5. Klicken Sie auf JA. Die Datei bzw. der Satz von Dateien wird importiert.
847847

Data Manager-Dataset-Import


Sie müssen die .zip-Datei abrufen, die ursprünglich exportiert wurde, und sie direkt in die neue Data Manager-Instanz importieren, um ein Dataset zu importieren, das zuvor auf einer anderen Sitzung des Data Managers beschriftet wurde.

Wenn Ihre neue Data Manager-Instanz vollkommen leer ist (d. h. es sind keine Daten und keine Felder definiert), werden sowohl die Dokumente mit Beschriftungen als auch das Schema importiert.

Wenn in Ihrer neuen Data Manager-Instanz bereits Felder definiert sind, muss das neu importierte Dataset die gleichen Felder oder eine Teilmenge dieser Felder haben. Andernfalls wird der Import abgelehnt.

Aufteilen von großen Datensätzen

To import Data Manager datasets larger than 1GB or that have more than 1500 files, we recommend you to use this script which splits the .zip files into multiple .zip files that are smaller than 1GB and that have less than 1500 files.

Validation Station-Dataset-Import


As your RPA workflow processes documents using an existing ML model, some documents may require human validation using the Validation Station activity (available on attended bots or in the browser using Orchestrator Action Center).

The validated data generated in Validation Station can be exported using Machine Learning Extractor Trainer activity and can be used to train ML models using the feature described below.

📘

Hinweis:

Für den Validation Station-Dataset-Import muss ein Schema definiert sein.

Führen Sie die folgenden Schritte aus:

  1. Konfigurieren Sie den Machine Learning Extractor Trainer so, dass Daten in einen Ordner mit dem Pfad <Trainer/Output/Folder> ausgegeben werden (verwenden Sie einen beliebigen leeren Ordnerpfad).
  2. Führen Sie einen RPA-Workflow aus, einschließlich Validation Station und Machine Learning Extractor Trainer.
  3. Machine Learning Extractor Trainer erstellt drei Unterordner: Dokumente, Metadaten und Vorhersagen im Ausgabeordner.
  4. Zippen Sie die <Trainer/Output/Folder>, um eine .zip-Datei zu erhalten, z. B TrainerOutputFolder.zip.
  5. Importieren Sie die .zip-Datei in den Data Manager, der erkennt, dass der Import Daten enthält, die von Machine Learning Extractor Trainer erzeugt wurden, und die Daten entsprechend importiert.

Fehlen die für das Dataset erforderlichen Felder, wird im Import-Dialogfenster eine Fehlermeldung angezeigt.

752752

Updated about 5 hours ago


Importieren von Dokumenten


Auf API-Referenzseiten sind Änderungsvorschläge beschränkt

Sie können nur Änderungen an dem Textkörperinhalt von Markdown, aber nicht an der API-Spezifikation vorschlagen.