UiPath Document Understanding

For the needed volumes of documents, see Pipelines.

For more details about how to assemble a high-quality dataset, see Training High Performing Models.


There are many situations where a field appears in multiple places in the same document or even on the same page. These should all be labelled, as long as they have the same meaning.

For instance, the total amount for utility bills. It often appears at the top, within a line item list in the middle, or in a payslip at the bottom, which can be detached and sent in the mail with the check. In this situation, all three occurrences would be labelled. This is useful because in some cases, if there is an OCR error or the layout is different and one field cannot be identified, the model can still identify the other occurrences.



What counts is the meaning of the value, not the value itself. For instance, on some invoices which carry no tax, the net amount and the total amount have the same value. But they are clearly different concepts. Consequently, they should not be labelled both as total amount but only the one whose meaning is to represent the total amount.





データセットをインポートするときに [データをインポート] ダイアログ ボックスの [これを評価セットにする] チェックボックスをオフにすると、そのデータセットはトレーニングに使用されるため、ドキュメントの単語 (灰色のボックス) にラベル付けするだけで済みます。

まれに、サイドバーのフィールドに入力されたテキストが誤っていることがありますが、ML モデルはまだ学習中であるため、問題はありません。たとえば、[複数行] チェックボックスをオンにして、フィールドの設定を調整しなければならないこともあります。しかし、一般には、ページ上の単語のラベル付けのみを行います。


データセットをインポートするときに [データをインポート] ダイアログ ボックスの [これを評価セットにする] チェックボックスをオンにすると、そのデータセットは AI Center のトレーニング パイプラインでは使用されず、評価パイプラインでのみ使用されます。

サイドバー (列フィールドの場合は上部バー) にあるフィールドに正しいテキストが入力されていることが重要です。各フィールドのテキストに誤りがないかを逐一確認するのは手間がかかりますが、信頼できる精度メトリックを持つ ML モデルを構築するためには、これが唯一の方法です。

v2021.10 のリリースより、Document Manager では複数ページのドキュメントのラベル付けがサポートされています。したがって、サイドバーのフィールドの値はドキュメント全体で 1 つだけです。これにより、RPA ワークフロー実行時の動作に近い動作が反映されるため、AI Center の評価パイプラインでは、ML モデルの実際の実行時のパフォーマンスを反映した、現実的なスコアが生成されます。

However, keep in mind that this is a major change from previous releases where each page was labelled separately. Labeling and exporting multi-page documents assumes each document represents a single logical document. For instance, a six-page document may contain a single six-page invoice but it should not contain three different invoices, two pages each. This is particularly important for evaluation sets.


See below the main actions you need to perform when labeling documents. A given field may be labelled in multiple places on the same page.


個々のテキスト ボックスをクリックして選択します。

複数の単語を選択するには、最初の単語をクリックし、Ctrl/Shift キーを押しながら単語の残りの部分をクリックするか、マウスをドラッグして領域全体を選択します (ラバー バンディング)。

To unselect certain text boxes from your selection, while Ctrl/Shift is pressed, click or rubber band the unwanted text boxes again.

正確に選択できたら、ショートカット キーを押してフィールドにラベルを付けます。


Label a multivalued field

Make sure that the multivalued option of the field is selected.
Select the first batch of information and tap the shortcut key to label the field.
Repeat the steps above until all the values are labelled for the multivalued field.



  • Multivalued fields can be used only with Machine Learning Packages version 2022.10, or higher.
  • A multivalued field displays two values in its collapsed state and all values it its expanded state. Click on the expand arrow from the multivalued field to expand and visualize the list of all tagged values.


テキスト ボックスを選択して、キーボードの Delete キーまたは Backspace キーを押します。



After you have labelled some Column fields, and only if some rows span multiple lines of text, then you may group them together by pressing the / key to indicate that they are part of the same table row. A green box appears around the group.

When a labelled column field is grouped together, the table is parsed and displayed at the top, highlighting the extracted data.

12801280 24722472


グループを選択し、再び / キーを押します。


Make corrections to the labelled value



Reset the labelled value to the auto-extracted value




Select a label

Use the left or right mouse buttons to select a box or to find out more information about it.

  • Left Click - selects the box
  • Right Click - selects the box and displays information about the OCR text and current label.

Document Navigation

  • Alt + Arrow Left / Arrow Right - Navigates between documents.

Document Scaling

  • Ctrl + Scroll - Changes the document scaling by zooming in or out.

Delete or Recover a Document

  • Alt + Delete - Deletes a document.
  • Alt + Delete - Recovers a deleted document.

