Abonnieren

UiPath Document Understanding

UiPath Document Understanding

Informationen zum Datenmanager

UiPath Document Manager is a lightweight web application that allows users to prepare, review and make corrections to datasets required for Training and Evaluation of Document Understanding Machine Learning models.

Here is the On Premises deployment methods:

  • Data Manager in AI Center On Premises. This is Generally Available and it is fully supported for Production scenarios. There is no limitation on the size of datasets that can be imported, with the exception of Auto-retraining which still has the 2000 pages or 2GB limit per import. For all the AI Center deployment methods available for On Premises, please see this page.

Data Manager ermöglicht mehreren Benutzern die Durchführung einer Vielzahl von Vorgängen, die mit der Verwaltung von Datenbatches, der Datenvorbereitung und der Modellkonfiguration verbunden sind:

Define and configure the fields to be extracted by an ML model.
Import documents for labeling.
Prelabel documents using a preexisting ML model such as Invoice Extraction or Receipt Extraction provided by UiPath out-of-the-box, or by using a model trained using AI Center.
Label documents.
Export documents in the format expected by the AI Center Training pipelines.

Die Benutzeroberfläche

Die Data Manager-Schnittstelle enthält die folgenden Panels:

Verwaltungsleiste


Wird oben auf der Seite in Data Manager angezeigt.

Ermöglicht Ihnen die Durchführung mehrerer Vorgänge: Navigieren zwischen Dokumenten, Löschen/Wiederherstellen eines Dokuments, Filtern/Durchsuchen von Dokumenten, Ausführen von KI-Modellvorhersagen, Importieren und Exportieren von Dokumenten.

Hier sind die Optionen, die in der Verwaltungsleiste verfügbar sind:

Option

Icon

Description

Navigation

navigatenavigate

Navigate between documents that match the active filter. In between the two arrows, a counter is displayed. It illustrates the number of the current document out of the total number of documents that match the active search/filter.

Search

searchsearch

Search or filter documents. Filter is also applied when exporting documents. You can also filter by words from a document or by document names.

Delete / Restore

deletedelete / restorerestore

Delete or restore a document. Deleted documents can be found under the deleted filter.

Predict

predictpredict

Run AI model predictions and display the results.
After configuring Prelabelling, the button is enabled in the management bar. Click it to prelabel the current document.
At the moment, using the Predict option with Public Endpoints prelabels only the first 10 pages of a document. This is a known issue and a fix is in the working. Using the Predict option with ML Skills in AI Center, however, does not impose such a limitation.

Import

importimport

Open Import data dialog box.

Export

exportexport

Open Export files dialog box.

Download

documentdocument

Click on the icon to download a Zip file containing the original document.

Settings

settingssettings

Configure OCR and Prelabelling settings or access the How to... panel. See below.

Herunterladen (Download)


Besides the Zip file containing the original document, all pages converted internally by Document Manager to .jpeg images are downloaded as well.

Dokumentname, Typ und Sitzungsname

Auf der rechten Seite des Symbols sehen Sie den Namen des aktuell aktiven Dokuments, seinen Typ und den Sitzungsnamen.

Es gibt drei Arten von Dokumenten:

  • Trainingsdokument
  • Validierungsdokument
  • Auswertungsdokument

Trainings- und Validierungsdokumente sind Teil von Trainingsdatensätzen, die von Trainingspipelines verwendet werden.

Evaluation documents are ignored by Training Pipelines and are intended to only be used by Evaluation pipelines in AI Center. These documents are the ones that were marked as evaluation by selecting the Make this an evaluation set checkbox in the Import data dialog box.

Einstellungen


Die Schaltfläche „Settings“ verfügt über zwei Optionen:

OCR


Um Dokumente in Data Manager zu importieren, müssen Sie einen OCR-Dienst konfigurieren.

849849

The following options are available:

OCR-Methode

❗️

Wichtig:

Die Auswahl der OCR-Engine, die zum Importieren von Dokumenten in Data Manager verwendet werden soll, ist eine kritische Entscheidung.
Es wird empfohlen, die gleiche OCR zum Importieren von Trainingsdaten (Trainingszeit) wie zum Bereitstellen des Modells zu verwenden (Ausführungszeit).
Ideally, you should try a few different ones to see which works best on your documents, and only then decide.

Die lokalen Optionen sind:

  • UiPath OCR-Container, der die wichtigsten westeuropäischen Sprachen unterstützt;
  • Microsoft Read-Container (verfügbar als Vorschau von Microsoft), auch mit einer guten Sprachabdeckung;
  • UiPath OCR ML-Fähigkeiten, die im lokalen AI Center v2020.10 oder höher bereitgestellt werden.

Die cloudbasierten Optionen sind:

  • UiPath Document OCR - https://du.uipath.com/ocr;
  • Google Cloud Vision OCR hat die beste Sprachabdeckung
  • Google Cloud Vision OCR for Japanese ist optimal zum Lesen japanischer Dokumente
  • Microsoft Read OCR.

OCR-URL

Zum Konfigurieren der OCR muss der OCR Dienst über eine URL verfügen. Hier sind die möglichen URLs, die Sie verwenden können:

  • öffentliche URLs wie etwa https://du.uipath.com/ocr oder Drittanbieter-URLs von Google Vision OCR oder Microsoft Read OCR
  • URLs von UiPath Document OCR (eigenständiger Container), der von UiPath vor Ort bereitgestellt wird
  • URLs vom OCR-ML-Paket, das als ML-Fähigkeiten bereitgestellt wurde und im lokalen AI Center v2020.10 oder höher öffentlich gemacht wurde.

🚧

Warnung:

If you are running the OCR on the same machine as Data Manager, then do not use localhost to refer to the local machine, but rather use the IP address or Domain Name of the local machine.
Verwenden Sie bei URLs von OCR, die als öffentliche ML-Fähigkeit im lokalen AI Center bereitgestellt wird, die URL, so wie sie in AI Center auf dem Bildschirm mit den Details zu den ML-Fähigkeiten angezeigt wird.


OCR-Schlüssel

Der entsprechende API-Schlüssel für das ausgewählte OCR-Modul. Bei UiPath Document OCR müssen Sie beispielsweise den API-Schlüssel für Document Understanding verwenden. Obligatorisch für Data Manager Cloud und Data Manager (lokal) Online. Nicht erforderlich für Data Manager (lokal, air-gapped).


Vorbeschriftung


Wenn Sie bereits über ein Modell verfügen, das einige der Felder extrahieren kann, die beschriftet werden müssen, und es nur einige zusätzliche Felder gibt, die eine manuelle Beschriftung erfordern, können Sie viel Zeit sparen, indem Sie die Vorbeschriftungsfunktion von Data Manager verwenden.

849849

The following options are available:

Vorbeschriftung der URL

Für die Vorbeschriftung ist es erforderlich, dass das ML-Modell über eine URL verfügt. Hier sind die möglichen URLs, die Sie verwenden können:

ML-Fähigkeiten im lokalen AI Center, die in Air-gapped-Umgebungen bereitgestellt werden, können nicht für die Vorbeschriftung verwendet werden.

🚧

Warning

If you are running the Prelabelling model on the same machine as Data Manager, then do not use localhost to refer to the local machine, but rather use the IP address or Domain Name of the local machine.
Verwenden Sie bei URLs von öffentlichen ML-Fähigkeiten im lokalen AI Center die URL, so wie sie in AI Center auf dem Bildschirm mit den Details zu den ML-Fähigkeiten angezeigt wird.


Vorbeschriftung des Schlüssels

Der API-Schlüssel „Document Understanding“. Obligatorisch für Data Manager Cloud und Data Manager On-Prem Online. Nicht erforderlich für Data Manager On-Prem Air-gapped.


Anleitungen zu …


The How to... option accesses the Data Manager help menu.

19101910

Hier finden Sie:

  • Die Data Manager-Version
  • Den Link Dokumentation, der zu dieser Dokumentationsseite führt.
  • Im Abschnitt Beschriftungssteuerelemente werden die Steuerelemente angezeigt, die beim Umgang mit Daten verwendet werden sollen.
  • Im Abschnitt Dokumentverknüpfungen werden die Verknüpfungen angezeigt, die zum Ausführen verschiedener Vorgänge wie Navigation und UI-Skalierung verwendet werden.
  • Im Abschnitt Konfiguration werden Details zur Instanz-Konfiguration angezeigt, die während der Installation durchgeführt wurde.

Spaltenfelder


Spaltenfelder haben die folgenden Optionen:

  • Create new column field create_fieldcreate_field
  • Edit field edit_fieldedit_field
  • Expand/collapse column field values expand_collapse_column_fieldexpand_collapse_column_field

For more details on column fields, visit this section.

Reguläre Felder


Reguläre Felder haben die folgenden Optionen:

  • Create a new regular field create_fieldcreate_field
  • Edit field edit_fieldedit_field

For more details on regular fields, visit this section.

Klassifizierungsfelder


Klassifizierungsfelder haben die folgenden Optionen:

  • Create a new classification field create_fieldcreate_field
  • Edit field edit_fieldedit_field

For more details on classification fields, visit this section.

Dokumentansicht


For multi-page documents, you can scroll naturally through the pages as in any PDF viewer. To zoom in or out, use Ctrl + mouse scroll.

Sie können Dokumente beschriften, indem Sie die Wortfelder auswählen und sie einem Feld durch Tastendruck zuweisen. Sie können auch mit der rechten Maustaste auf das Wortfeld klicken und die extrahierten Informationen überprüfen.
For more details on how to label documents, visit this page.

Wenn Sie eine neue Data Manager-Sitzung öffnen oder einen leeren Filter haben, werden bestimmte Richtlinien in der Dokumentansicht angezeigt:

984984

Außerdem werden Fehler beim Laden auch in der Dokumentansicht angezeigt:

11841184

Aktualisiert vor 4 Monaten


Informationen zum Datenmanager


Auf API-Referenzseiten sind Änderungsvorschläge beschränkt

Sie können nur Änderungen an dem Textkörperinhalt von Markdown, aber nicht an der API-Spezifikation vorschlagen.