通知を受け取る

UiPath Document Understanding

UiPath Document Understanding

Document Manager

UiPath Document Manager は、Document Understanding マシン ラーニング モデルのトレーニングと評価に必要なデータセットを準備、レビュー、修正できる軽量の Web アプリケーションです。Document Manager を使用すると、複数のユーザーが以下のようなさまざまな操作を実行できます。

Define and configure the fields to be extracted by an ML model.
Import documents for labeling.
Prelabel documents using a preexisting ML model such as Invoice Extraction or Receipt Extraction provided by UiPath out-of-the-box, or by using a model trained using AI Center.
Label documents.
Export documents in the format expected by the AI Center Training pipelines.

Create new session


重要

When a Document Manager Session is created for the first time in a project, you need to link it to the AI Center project.

685685

Once a project is created and opened, you can create a new Document Manager session by clicking on the New button and selecting the Using Semi-Structured AI option. A new window opens requesting additional information.

19121912

Here are the available options for when creating a new Document Manager session. By filling in these values you obtain an estimate of the recommended size of the dataset to be used as a starting point.
Also, by selecting the Out-of-the-box document type, your schema is automatically populated and configured to allow you to benefit from the pre-trained models available in AI Center.
In addition, the Prelabelling endpoint is automatically populated with the appropriate endpoint, making it more convenient for you to use Prelabelling immediately after opening the new Document Type.

506506

Option

Description

Name (Mandatory)

Provide a name for the new document type.

Out-of-the-box document type (Mandatory)

Select one of the pre-trained out-of-the-box document types available in the dropdown list.

Out-of-the-box regular fields (Optional)

Select which of the pre-defined regular fields you would like to create for your schema

Out-of-the-box column fields (Optional)

Select which of the pre-defined column fields you would like to extract from your documents.

Custom regular fields (Optional)

Enter the number of additional regular fields you would like to extract from your documents.

Custom column fields (Optional)

Enter the number of additional column fields you would like to extract from your documents.

Number of languages (Optional)

Enter the number of languages for the documents you need to extract.

Number of layouts (Optional)

Enter the number of layouts for the documents you need to extract.

📘

注:

Selecting a document type generates a recommended number of pages that need to be used for the dataset.

ユーザー インターフェイス

Document Manager のインターフェイスには、以下のパネルがあります。

管理バー


Document Manager のページの上部に表示されます。

複数の操作を実行できます (ドキュメント間の移動、ドキュメントの削除/復元、ドキュメントの検索/フィルター処理、AI モデルの予測の実行、ドキュメントのインポートとエクスポート)。

以下に、管理バーで利用可能な項目を示します。

Item

Icon

Description

Navigation

navigatenavigate

Navigate between documents that match the active filter.

In between the two arrows, a counter is displayed. It illustrates the number of the current document out of the total number of documents that match the active search/filter.

Search

searchsearch

Search or filter documents. Filter is also applied when exporting documents. You can also filter by words from a document or by document names.

Delete / Restore

deletedelete / restorerestore

Delete or restore a document. Deleted documents can be found under the deleted filter.

Import

importimport

Open Import data dialog box.

Export

exportexport

Open Export files dialog box.

Document name and type

n/a

The name of the currently active document and its type.

There are three type of documents:
Training document
Validation document
Evaluation document

Training and Validation documents are part of training datasets used by Training Pipelines.

Evaluation documents are ignored by Training Pipelines and are intended to only be used by Evaluation pipelines in AI Center. These documents are the ones that were marked as evaluation by selecting the Mark this an evaluation set checkbox in the Import data dialog box.

Download

documentdocument

The option is available in the drop-down next to the document name.

Click the icon to download a Zip file containing the original document. Besides the original document, all pages converted internally by Document Manager to .jpeg images are downloaded as well.

Permanently delete

permanently deletepermanently delete

The option is available in the drop-down next to the document name.

Permanently deletes individual files. The .pdf and all its .jpeg images are deleted from the AI Center dataset and all the metadata is deleted from the database.

When clicking the button, a pop-up message appears asking you if you are sure you want to permanently delete the document. Click OK to continue or Cancel to revert to the previous screen.

Batch name

n/a

The name of the current batch.

Session name

n/a

The name of the current session.

Predict

predictpredict

Run AI model predictions and display the results.

After configuring Prelabelling, the button is enabled in the management bar. Click it to prelabel the current document.

The Predict functionality discards all manually edited field values for all field types and deletes all tags from the document.

At the moment, using the Predict option with Public Endpoints prelabels only the first 10 pages of a document. This is a known issue and a fix is in the working. Using the Predict option with ML Skills in AI Center, however, does not impose such a limitation.

Settings

settingssettings

Configure OCR and Prelabelling settings or access the How to... panel. See more details below.

Let's go a little bit deeper in understanding the difference between Delete and Permanently Delete options.

  • The Delete option deletes the files, but not removing them entirely from your project. The deleted files can still be found under the deleted filter from the Search bar and restored by using the Restore option.
  • The Permanently Delete option deletes the selected files without any possibility of restoring them.
    Observe the use of both options in the below GIF:
12801280

設定ボタンには、2 つの利用可能なオプションがあります。

OCR


Document Manager にドキュメントをインポートするには、OCR サービスの設定が必須です。

808808

次のオプションを使用できます。

OCR メソッド

クラウドベースのオプションは以下のとおりです。

  • UiPath Document OCR - https://du.uipath.com/ocr
  • Google Cloud Vision OCR - 対応している言語の種類は最多です。
  • Google Cloud Vision OCR for Japanese - 日本語ドキュメントの読み取りに最適です。
  • Microsoft Read OCR

OCR の URL

OCR を設定するには、OCR サービスに URL が必要です。使用できる URL は以下のとおりです。

  • パブリック URL (例: https://du.uipath.com/ocr) または Google Vision OCR や Microsoft Read OCR のサードパーティー URL

OCR キー

選択した OCR エンジンに対応する API キーです。たとえば、UiPath ドキュメント OCR の場合、Document Understanding の API キーを使用する必要があります。Cloud Document Manager およびオンプレミスのオンラインの Document Manager の場合は必須です。オンプレミスのエアギャップ環境の Document Manager では不要です。


PDF に OCR を適用

OCR プロセスを PDF ドキュメントに適用するかどうかを指定します。[True] に設定すると、ドキュメントのすべての PDF ページに OCR が適用されます。[False] にすると、デジタル入力されたテキストのみが抽出されます。[Auto] に設定すると、入力ドキュメントに応じてドキュメントに OCR アルゴリズムを適用する必要があるかを判断します。既定値は [Auto] です。


事前ラベル付け


ラベル付けが必要なフィールドの一部を抽出できるモデルを既に所持しており、追加で手動のラベル付けが必要なフィールドがほとんどない場合は、Document Manager の事前ラベル付け機能を使用すると、時間を大幅に節約できます。

849849

次のオプションを使用できます。

事前ラベル付け URL

事前ラベル付けを行うには、ML モデルに URL が必要です。使用できる URL は以下のとおりです。


事前ラベル付けキー

Document Understanding の API キーです。Cloud Document Manager およびオンプレミスのオンラインの Document Manager の場合は必須です。オンプレミスのエアギャップ環境の Document Manager では不要です。


使い方


[使い方] オプションから、Document Manager のヘルプ メニューにアクセスできます。

19101910

以下の項目が含まれます。

  • Document Manager のバージョン
  • ドキュメント ページへのリンク です。
  • [ラベル付けのコントロール] セクション: データを処理するときに使用されるコントロールが表示されます。
  • [ドキュメントのショートカット] セクション: ナビゲーションや UI のスケーリングなどのさまざまな操作の実行に使用されるショートカットが表示されます。
  • [構成] セクション: インストール時に実行されたインスタンス構成に関する詳細が表示されます。

Labelling Controls

Command

Description

Left Click

Selects boxes. If used together with the field's hotkey, it assigns the selected information to the field.

Backspace / Delete

Removes the tagged value of a field.

Right Click

Displays the OCR text and current label.

Backslash

Groups or ungroups table rows which span multiple lines of text.

Document Shortcuts

Shortcut

Description

Alt + Arrow Left / Arrow Right

Navigates between documents.

Alt + Delete

Deletes or recovers a document.

Ctrl + Scroll

Changes the document scaling by zooming in or out.

列フィールド


列フィールドでは、以下のオプションを利用できます。

  • Create new column field create_fieldcreate_field
  • Edit field edit_fieldedit_field
  • Expand/collapse column field values expand_collapse_column_fieldexpand_collapse_column_field

For more details on column fields, visit this section.

標準フィールド


標準フィールドでは、以下のオプションを利用できます。

  • Create a new regular field create_fieldcreate_field
  • Edit field edit_fieldedit_field

For more details on regular fields, visit this section.

分類フィールド


分類フィールドでは、以下のオプションを利用できます。

  • Create a new classification field create_fieldcreate_field
  • Edit field edit_fieldedit_field

For more details on classification fields, visit this section.

ドキュメント ビュー


For multi-page documents, you can scroll naturally through the pages as in any PDF viewer. To zoom in or out, use Ctrl + mouse scroll.

ドキュメント ビューでは、ドキュメントのラベル付けを行えます。単語ボックスを選択し、キーを押してそれらのボックスをフィールドに割り当てます。また、単語ボックスを右クリックして、抽出された情報を検証することもできます。
For more details on how to label documents, visit this page.

新しい Document Manager セッションを開いた場合、またはフィルターが空の場合は、ドキュメント ビューに特定のガイドラインが表示されます。

896896

また、読み込みの失敗もドキュメント ビューに表示されます。

11841184

21 日前に更新


Document Manager


改善の提案は、API リファレンスのページでは制限されています

改善を提案できるのは Markdown の本文コンテンツのみであり、API 仕様に行うことはできません。