通知を受け取る

UiPath Document Understanding

UiPath Document Understanding

ドキュメントにラベル付けする

For the needed volumes of documents, see Pipelines.

For more details about how to assemble a high-quality dataset, see Training High Performing Models.

同じドキュメント上で複数回発生するフィールド

There are many situations where a field appears in multiple places in the same document or even on the same page. These should all be labelled, as long as they have the same meaning.

For instance, the total amount for utility bills. It often appears at the top, within a line item list in the middle, or in a payslip at the bottom, which can be detached and sent in the mail with the check. In this situation, all three occurrences would be labelled. This is useful because in some cases, if there is an OCR error or the layout is different and one field cannot be identified, the model can still identify the other occurrences.

📘

注:

What counts is the meaning of the value, not the value itself. For instance, on some invoices which carry no tax, the net amount and the total amount have the same value. But they are clearly different concepts. Consequently, they should not be labelled both as total amount but only the one whose meaning is to represent the total amount.

複数のユーザーが並行してラベル付けする

複数のユーザーが同じインスタンスを使用して、同じドキュメント上であっても、同時にラベル付けできます。

スキーマが同時に変更された場合、一方のユーザーによる変更が実行され、もう一方のユーザーには変更を実行できなかったことを示す警告メッセージが表示されます。後者のユーザーは、直ちにブラウザーを更新して、変更内容を確認する必要があります。

トレーニングのためにラベル付けする

データセットをインポートするときに [データをインポート] ダイアログ ボックスの [これを評価セットにする] チェックボックスをオフにすると、そのデータセットはトレーニングに使用されるため、ドキュメントの単語 (灰色のボックス) にラベル付けするだけで済みます。

まれに、サイドバーのフィールドに入力されたテキストが誤っていることがありますが、ML モデルはまだ学習中であるため、問題はありません。たとえば、[複数行] チェックボックスをオンにして、フィールドの設定を調整しなければならないこともあります。しかし、一般には、ページ上の単語のラベル付けのみを行います。

評価のためにラベル付けする

データセットをインポートするときに [データをインポート] ダイアログ ボックスの [これを評価セットにする] チェックボックスをオンにすると、そのデータセットは AI Center のトレーニング パイプラインでは使用されず、評価パイプラインでのみ使用されます。

サイドバー (列フィールドの場合は上部バー) にあるフィールドに正しいテキストが入力されていることが重要です。各フィールドのテキストに誤りがないかを逐一確認するのは手間がかかりますが、信頼できる精度メトリックを持つ ML モデルを構築するためには、これが唯一の方法です。

v2021.10 のリリースより、Document Manager では複数ページのドキュメントのラベル付けがサポートされています。したがって、サイドバーのフィールドの値はドキュメント全体で 1 つだけです。これにより、RPA ワークフロー実行時の動作に近い動作が反映されるため、AI Center の評価パイプラインでは、ML モデルの実際の実行時のパフォーマンスを反映した、現実的なスコアが生成されます。

However, keep in mind that this is a major change from previous releases where each page was labelled separately. Labeling and exporting multi-page documents assumes each document represents a single logical document. For instance, a six-page document may contain a single six-page invoice but it should not contain three different invoices, two pages each. This is particularly important for evaluation sets.

ラベル付け操作

See below the main actions you need to perform when labeling documents. A given field may be labelled in multiple places on the same page.

フィールドにラベル付けする


個々のテキスト ボックスをクリックして選択します。

複数の単語を選択するには、最初の単語をクリックし、Ctrl/Shift キーを押しながら単語の残りの部分をクリックするか、マウスをドラッグして領域全体を選択します (ラバー バンディング)。

To unselect certain text boxes from your selection, while Ctrl/Shift is pressed, click or rubber band the unwanted text boxes again.

正確に選択できたら、ショートカット キーを押してフィールドにラベルを付けます。

24722472

Label a multivalued field


Make sure that the multivalued option of the field is selected.
Select the first batch of information and tap the shortcut key to label the field.
Repeat the steps above until all the values are labelled for the multivalued field.

📘

注:

  • Multivalued fields can be used only with Machine Learning Packages version 2022.10, or higher.
  • A multivalued field displays two values in its collapsed state and all values it its expanded state. Click on the expand arrow from the multivalued field to expand and visualize the list of all tagged values.
12801280

ラベルを削除する


テキスト ボックスを選択して、キーボードの Delete キーまたは Backspace キーを押します。

24722472

テーブルの行をグループ化する

After you have labelled some Column fields, and only if some rows span multiple lines of text, then you may group them together by pressing the / key to indicate that they are part of the same table row. A green box appears around the group.

When a labelled column field is grouped together, the table is parsed and displayed at the top, highlighting the extracted data.

12801280 24722472

テーブルの行のグループ化を解除する


グループを選択し、再び / キーを押します。

24722472

Make corrections to the labelled value


サイドバーまたは上部バーにあるテキストをクリックして、内容を編集します。フィールドが手動で編集されたことを示す、小さなロックが表示されます。これは、評価セットをラベル付けするときに必要になります。

24722472

Reset the labelled value to the auto-extracted value


ロックをクリックすると、フィールドは自動抽出された値に戻ります。

24722472

その他のオプション

Select a label

Use the left or right mouse buttons to select a box or to find out more information about it.

  • Left Click - selects the box
25542554
  • Right Click - selects the box and displays information about the OCR text and current label.
25462546

Document Navigation

  • Alt + Arrow Left / Arrow Right - Navigates between documents.
25462546

Document Scaling

  • Ctrl + Scroll - Changes the document scaling by zooming in or out.
25462546

Delete or Recover a Document

  • Alt + Delete - Deletes a document.
25462546
  • Alt + Delete - Recovers a deleted document.

約 1 か月前に更新


ドキュメントにラベル付けする


改善の提案は、API リファレンスのページでは制限されています

改善を提案できるのは Markdown の本文コンテンツのみであり、API 仕様に行うことはできません。