document-understanding

2022.10

false

重要 :

このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

Document Understanding ガイド

デリバリー:

最終更新日時 2025年11月6日

Document Manager について

UiPath Document Manager は、Document Understanding マシンラーニングモデルのトレーニングと評価に必要なデータセットを準備、レビュー、修正できる軽量の Web アプリケーションです。Document Manager を使用すると、複数のユーザーが以下のようなさまざまな操作を実行できます。

ML モデルで抽出するフィールドを定義・設定します。

ラベル付けのためにドキュメントをインポートします。

UiPath が提供する、すぐに使える既存の ML モデル (請求書抽出や領収書抽出など) や、AI Center でトレーニングしたモデルを使用して、ドキュメントの事前ラベル付けを行います。

ドキュメントのラベル付けを行います。

AI Center のトレーニングパイプラインで使用できる形式で、ドキュメントをエクスポートします。

ユーザーインターフェイス

Document Manager のインターフェイスには、以下のパネルがあります。

管理バー

Document Manager のページの上部に表示されます。

複数の操作を実行できます (ドキュメント間の移動、ドキュメントの削除/復元、ドキュメントの検索/フィルター処理、AI モデルの予測の実行、ドキュメントのインポートとエクスポート)。

以下に、管理バーで利用可能な項目を示します。

アイテム	Icon	説明
ナビゲーション		アクティブなフィルターに一致するドキュメント間を移動します。 2 つの矢印の間にカウンターが表示されます。アクティブな検索/フィルターに一致するドキュメントの総数のうち、現在のドキュメントの数を示します。
		ドキュメントを検索またはフィルター処理します。フィルターはドキュメントのエクスポート時にも適用されます。ドキュメント内の単語またはドキュメント名でフィルター処理することもできます。
削除/復元	/	ドキュメントを削除または復元します。削除したドキュメントは、deleted フィルターで検索できます。
		[データをインポート] ダイアログボックスを開きます。
		[ファイルをエクスポート] ダイアログボックスを開きます。
ドキュメントの名前と種類	なし	現在アクティブなドキュメントの名前と種類です。ドキュメントには以下の 3 種類があります。トレーニングドキュメント検証ドキュメント評価ドキュメントトレーニングドキュメントと検証ドキュメントは、トレーニングパイプラインで使用されるトレーニングデータセットの一部です。評価ドキュメントはトレーニングパイプラインでは無視され、AI Center の評価パイプラインでのみ使用されるようになっています。評価ドキュメントは、[データをインポート] ダイアログボックスの [これを評価セットにする] チェックボックスをオンにして、評価用としてマークしたドキュメントです。
ダウンロードする		このオプションは、ドキュメント名の横にあるドロップダウンリストから利用できます。アイコンをクリックすると、元のドキュメントを含む Zip ファイルをダウンロードできます。元のドキュメントに加えて、Document Manager によって内部で `.jpeg` 画像に変換されたすべてのページもダウンロードされます。
完全に削除		このオプションは、ドキュメント名の横にあるドロップダウンリストから利用できます。個々のファイルを完全に削除します。`.pdf` とそのファイルのすべての `.jpeg` イメージが AI Center のデータセットから削除され、すべてのメタデータがデータベースから削除されます。ボタンをクリックすると、ドキュメントを完全に削除するかどうかを確認するポップアップメッセージが表示されます。[OK] クリックして続行するか、[キャンセル] をクリックして前の画面に戻ります。
セッション名	なし	現在のセッションの名前です。
予測		AI モデルの予測を実行し、結果を表示します。事前ラベル付けを設定すると、管理バーでこのボタンが有効化されます。このボタンをクリックすると、現在のドキュメントの事前ラベル付けが行われます。現時点では、パブリックエンドポイントを使用して [予測] オプションを使用すると、ドキュメントの最初の 10 ページにしか事前ラベル付けが行われません。これは既知の問題であり、現在修正が行われています。なお、AI Center で ML スキルを使用して [予測] オプションを使用した場合には、そのような制限はありません。
設定		OCR と事前ラベル付けの設定を行ったり、[使い方] パネルにアクセスしたりできます。詳しくは、以下をご覧ください。

[削除] オプションと [完全に削除] オプション

[削除] オプションと [完全に削除] オプションの違いを理解できるよう、もう少し詳しく説明します。

[削除] オプションを使用するとファイルが削除されますが、プロジェクトから完全に削除されるわけではありません。削除したファイルは [検索] バーから [削除済み] フィルターで検索し、[復元] オプションを使用して復元できます。
[完全に削除] オプションを使用すると、選択したファイルが削除され、一切復元できません。
これらのオプションの使い方は、以下の GIF で確認できます。

検索オプション

[検索] バーは、テキスト入力フィールドとしても、ドロップダウンとしても機能します。

検索オプションを入力するには、[検索] バーに入力するか、ドロップダウンからフィルターを選択します。検索を初期化する方法は主に 3 つあります。

[検索] バーのドロップダウンリストで利用可能な組み込みのフィルターを使用する。選択できるフィルターは、[トレーニングセット]、[検証セット]、[トレーニングと検証セット]、[評価セット]、[削除済み]、[ラベルあり]、[ラベルなし] です。
注: フォーム AI で使用できる組み込みフィルターは、[削除済み]、[ラベルあり]、[ラベルなし] のみであることに注意してください。
インポートのバッチ名を使用する。バッチ名は [検索] バーのドロップダウンリストからも利用できます。手動で追加する場合の形式は batch:name です。name は、インポート時にバッチに指定した名前に置き換えます (例: batch:invoices1)。
キーワードを使用する。[検索] バーにキーワードをフリーテキストとして入力する必要があります。ドキュメントの内容またはドキュメント名でキーワードが検索されます。

1 つまたは複数の検索オプションを使用できます。追加のオプションを使用するたびに、検索結果が絞り込まれます。以下に示す検索例では、広範な検索から始めて、徐々に検索を絞り込んでいきます。

labelled で検索を開始すると、データセット内にある labelled のドキュメントがすべて返されます。
batch:invoices1 で検索を開始すると、invoices1 のバッチに含まれるドキュメントがすべて返されます。
labelled batch:invoices1 で検索を開始すると、invoices1 のバッチに含まれる、ラベル付けされたドキュメントがすべて返されます。
labelled batch:invoices1 vermont で検索を開始すると、invoices1 のバッチから、入力したキーワード (この例では vermont) がドキュメント名またはドキュメントの内容のいずれかに含まれる、ラベル付けされたドキュメントがすべて返されます。

[検索] バーにはドロップダウンメニューがあり、メニューを開くと次のフィルターが表示されます。

トレーニングセット - モデルのトレーニングに使用するドキュメントの数を示します。自動化された操作です。
検証セット - モデルのトレーニングが完了した後にモデルを検証するために使用するドキュメントの数を示します。トレーニングセットと検証セットの分割割合は 80%-20% に設定されます。自動化された操作です。
トレーニングと検証セット - [トレーニングセット] フィルターと [検証セット] フィルターの両方で検索するドキュメントの数を指定します。自動化された操作です。
評価セット - インポート時に [評価セット] チェックボックスがオンになっていて、モデルをトレーニングパイプラインのステージで評価するために使用するドキュメントの数を示します。詳細は、こちらをご覧ください。手動操作です。
削除済み - 削除済みのドキュメントの数を指定します。詳細は、こちらをご覧ください。
ラベルあり - ラベルが付いているドキュメントの数を指定します。ラベルは、ドキュメントあたり少なくとも 1 つのタグ付けされたフィールド/手動で編集したフィールドによって定義されます。
ラベルなし - ラベルが付いてないドキュメントの数を指定します。
batch:name - 同じインポートアクションで構成されているドキュメントを指定します。

トレーニングセットまたは検証セットへのドキュメントの割り当ては、インポート時にアプリケーションによって行われます。

インポートしたドキュメントは、インポート中に [評価セット] チェックボックスがオンになっている場合、最終的に評価セットに追加されます。

設定メニュー

設定ボタンには、2 つの利用可能なオプションがあります。

設定: OCR サービスまたは事前ラベル付けの設定を行えます。
使い方: ヘルプメニューです。

Document Manager にドキュメントをインポートするには、OCR サービスの設定が必須です。

次のオプションを使用できます。

OCR メソッド

クラウドベースのオプションは以下のとおりです。

UiPath Document OCR - https://du.uipath.com/ocr
Google Cloud Vision OCR - 対応している言語の種類は最多です。
Google Cloud Vision OCR for Japanese - 日本語ドキュメントの読み取りに最適です。
Microsoft Read OCR

OCR の URL

OCR を設定するには、OCR サービスに URL が必要です。使用できる URL は以下のとおりです。

パブリック URL (例: https://du.uipath.com/ocr) または Google Vision OCR や Microsoft Read OCR のサードパーティの URL

OCR キー

選択した OCR エンジンに対応する API キーです。たとえば、UiPath Document OCR の場合、Document Understanding の API キーを使用する必要があります。クラウドの Document Manager およびオンプレミスのオンラインの Document Manager の場合は必須です。オンプレミスのエアギャップ環境の Document Manager では不要です。

事前ラベル付け

ラベル付けが必要なフィールドの一部を抽出できるモデルを既に所持しており、追加で手動のラベル付けが必要なフィールドがほとんどない場合は、Document Manager の事前ラベル付け機能を使用すると、時間を大幅に節約できます。

次のオプションを使用できます。

事前ラベル付け URL

事前ラベル付けを行うには、ML モデルに URL が必要です。使用できる URL は以下のとおりです。

パブリック URL (例: https://du.uipath.com/ie/invoices or https://du.uipath.com/ie/purchase_orders)
エンドポイントの完全なリストについてはこちらをご覧ください。
オンプレミスの AI Center または AI Center Cloud で公開されている ML スキルの URL

事前ラベル付けキー

Document Understanding の API キーです。クラウドの Document Manager およびオンプレミスのオンラインの Document Manager の場合は必須です。オンプレミスのエアギャップ環境の Document Manager では不要です。

使い方

[使い方] オプションから、Document Manager のヘルプメニューにアクセスできます。

以下の項目が含まれます。

Document Manager のバージョン
製品ガイドのページへのリンク です。
[ラベル付けのコントロール] セクション: データを処理するときに使用されるコントロールが表示されます。
[ドキュメントのショートカット] セクション: ナビゲーションや UI のスケーリングなどのさまざまな操作の実行に使用されるショートカットが表示されます。
[構成] セクション: インストール時に実行されたインスタンス構成に関する詳細が表示されます。