Document Understanding - ドキュメントにアノテーションを行う

document-understanding

latest

false

Document Understanding ガイド

重要 :

このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

ドキュメントのアノテーションを行う

事前ラベル付け機能の仕組みやデプロイ固有の利用可能性など、Document Understanding モダンプロジェクトでドキュメントにアノテーションを行うための重要な概念。

注:

利用可能な機能は、使用するクラウドプラットフォームによって異なります。詳しくは、「デプロイの種類を選択する」をご覧ください。

注:

事前ラベル付け機能は UiPath Helix Extractor に依存しますが、欧州リージョンに拠点を置くテナントのみが対象です。テナントが欧州以外のリージョンにある場合は、前世代のモデルアーキテクチャが使用されます。

プロジェクトが正常に作成され、ドキュメントを特定のドキュメントの種類にアップロードすると、ドキュメントに自動的にアノテーションが行われます。これは、ドキュメントの種類のスキーマに基づいて、生成 AI のモデルと専門家されたモデルを組み合わせて行なわれます。このスキーマでは、特定のドキュメントの種類から抽出するフィールドが明確に定義されています。ドキュメントの種類のスキーマを確認するには、[ アノテーション] ページに移動して [ フィールド ] セクションを確認します。

予測はドキュメント内のテキストに下線付きで示され、削除できません。予測が間違っていて、特定のフィールドに一致させることができない場合は、無視してかまいません。トレーニングプロセスでは、確認済みのフィールドのみがトレーニングに使用され、下線は考慮されません。

アノテーションを追加で行っていくうちに、予測の下線部分が徐々に入力内容と一致していきます。下線部分とユーザーがアノテーションを行ったフィールドとの間に最初からほとんど不整合がない場合もあります。ただし、さらにアノテーションを行ってモデルが改善されていくと、下線部分は、ユーザーが提供したデータとより正確に一致するようになります。

次の画像では、配送先住所の予測に誤りがあり、人名まで含まれています。

これを修正するには、配送先住所を確認するだけです。名前に関連する下線付きのテキストを削除する必要はありません。アノテーションを続行してこのようなエラーを修正していくと、下線付きのテキストが確認済みのフィールドと一致しないケースが減っていきます。

注:

トレーニングの実行を開始する前に、40 以上の操作が必要です。たとえば、ドキュメントが 20 個ある場合、ドキュメント 1 個につき 2 つ以上のフィールドに注釈を付ける必要があるため、合計で 40 の操作が必要になります。このしきい値に達したら、ドキュメントの種類のアノテーションページで [ トレーニングを開始 ] を選択してトレーニングをキューに入れます。ボタンのステートとトレーニングライフサイクルについて詳しくは、「トレーニングの実行を開始する」をご覧ください。

ヒント:

モデルのパフォーマンスを最適化するには、[ 推奨事項] セクションの提案に従います。これらの提案は、モデルの全体的なパフォーマンスを向上させることを目的としています。

抽出ビュー

[ 抽出ビュー ] メニューを使用して、抽出ビューのモードを変更できます。このモードにアクセスするには、ドキュメントの種類名の右側にある 3 点リーダーメニューのアイコン ⁝ を選択して、[ 抽出ビュー] を選択します。

フィルター処理された値は、予測 (読み取り専用) とアノテーション (ユーザーが編集可能) で構成されます。

以下の抽出ビューをリストから選択できます。

列でマージ: モデルの予測は、アノテーションのない列に表示されます。列全体を表示して検証できる小さな表の場合に選択します。
行でマージ: モデルの予測は、アノテーションのない行に表示されます。表が大きく、1 行ずつ検証する場合に選択します。
確認済みのみ: ユーザーが確認したアノテーションの抽出値のみを表示します。
予測のみ: モデルの予測のみを表示します。モデルの再トレーニング時に自動的に更新され、編集できません。
サイドパネルを表示: パネルをアノテーションフィールドとともに左側に表示します。
表を表示: 表のアノテーションパネルを表示します。

予測されたドキュメントを検証する

ドキュメントをすべてアップロードして予測が完了したら、事前アノテーション済みのフィールドを検証または変更することが目標になります。すべてのフィールドが正確に予測されたドキュメントの場合は、[確認] を選択して、すべてのフィールドを一度に承認します。ドキュメントの確認が完了すると、ドキュメントリストで緑色の盾のマークが付きます。

ドキュメントが部分的にしか確認されていない場合は、ドキュメントリストで空の盾の記号が付きます。この記号は、この特定のドキュメントのアノテーションプロセスが進行中であることを示します。最終的な目標は、すべてのドキュメントを確認済みにすることです。

検証中に、次のシナリオが発生する可能性があります。

予測は正確であり、検証する必要がある
予測に誤りがあり、フィールドがドキュメントに存在する
予測に誤りがあり、フィールドがドキュメントに存在しない
予測がない

予測は正確であり、検証する必要がある

予測が正しく行われている場合は、予測を確定します。そのためには、下線付きのテキストを選択して [確認] を選択するか、フィールドの確認用のチェックボックスをオンにします。ただし、最適な方法は、フィールドに割り当てられているホットキー (このシナリオでは「N」) を押すことです。

予測に誤りがあり、フィールドがドキュメントに存在する

予測が正しくない場合は、ドキュメントから正しいテキストを選択して、ドロップダウンから適切なフィールドを選択し、[確認] を選択します。

表を操作するときに、誤って予測された値を無視するよう選択できます。これらの値はモデルのトレーニングに使用されなくなります。また、再トレーニングされたモデルは、今後の反復処理でこれらの値を予測しないように学習します。

予測に誤りがあり、フィールドがドキュメントに存在しない

予測が間違っていて、フィールドがドキュメントに存在しない場合は、フィールド名の横にある 3 点リーダーメニューのアイコン ⁝ を選択し、[存在しないとしてマーク] を選択します。

重要:

間違ったラベルが付けられたフィールドは、存在しないとしてマークすることもできます。たとえば、ドキュメント内に [ベンダー住所 ] は存在しないが、処理中に別のフィールドが [ベンダー住所] として事前にラベル付けされていた場合、検証中にそのフィールドを存在しないとしてマークできます。

予測がない

予測がないフィールドは、空のセルとして表示されます。このようなセルは、存在しないものとして 1 つずつマークを付けることも、[確認] ボタンを選択して一括でマークを付けることもできます。

ドキュメントの種類の設定

ドキュメントの種類の設定は、[アノテーションを行う] ビューから変更できます。

そのためには、ドキュメントの種類名の右側にある 3 点リーダーメニューのアイコン ⁝ を選択して、[設定] を選択します。

次の設定を変更できます。

ベースモデル: [推奨されるアクション] に表示されるデータセットのサイズの推定値は、トレーニングに使用されるベースモデルによって異なります。対象のドキュメントの種類に最も類似したベースモデルを使用すると、必要とされるアノテーション作業量が減ります。
言語の数: [推奨されるアクション] に表示されるデータセットのサイズの推定値は、データセットに含まれる言語の数によって異なります。一般には、言語の数が多いほど、より多くのデータのアノテーションを行う必要があります。

抽出ビュー
予測されたドキュメントを検証する
予測は正確であり、検証する必要がある
予測に誤りがあり、フィールドがドキュメントに存在する
予測に誤りがあり、フィールドがドキュメントに存在しない
予測がない
ドキュメントの種類の設定

このページは役に立ちましたか?

前へ使用状況の測定と請求ロジック (フレックスプラン)

次へ表、および表の行をグループ化する

抽出ビュー​

予測されたドキュメントを検証する​

予測は正確であり、検証する必要がある​

予測に誤りがあり、フィールドがドキュメントに存在する​

予測に誤りがあり、フィールドがドキュメントに存在しない​

予測がない​

ドキュメントの種類の設定​