Document Understanding アクティビティ

最終更新日時 2025年5月15日

ドキュメント分類スコープ

UiPath.IntelligentOCR.Activities.DocumentClassification.ClassifyDocumentScope

説明

分類器アクティビティのスコープを提供し、ドキュメント分類の実行に必要なすべてのファイルを提供します。1つ以上の分類器、およびそれらの間のブローカーを許可し、子分類アクティビティにすべてのパラメーターが確実に転送されるようにします。

プロジェクトの対応 OS

Windows - レガシ | Windows

構成

プロパティパネル

共通

表示名 - アクティビティの表示名です。

入力

ドキュメントオブジェクトモデル - ドキュメントの検証に使用するドキュメントオブジェクトモデル (DOM) です。このモデルは Document 変数に格納され、[ドキュメントをデジタル化] アクティビティから取得できます。このアクティビティの使用方法については、「ドキュメントをデジタル化」をご覧ください。このフィールドでは Document 型の変数のみがサポートされています。
ドキュメントパス - 検証するドキュメントへのパスです。このフィールドは、文字列と String 型変数のみをサポートします。
注: このプロパティフィールドでサポートされているファイルは、.png、.gif、.jpe、.jpg、.jpeg、.tiff、.tif、.bmp、.pdfです。
ドキュメントテキスト - String 型変数に格納されたドキュメント自体のテキストです。この値は、[ドキュメントをデジタル化] アクティビティから取得できます。このアクティビティの使用方法については、「ドキュメントをデジタル化」をご覧ください。このフィールドでは、文字列と String 変数のみがサポートされています。
タクソノミー - ドキュメントの処理に使用するタクソノミーです。DocumentTaxonomy 変数に格納されます。このフィールドでは DocumentTaxonomy 変数のみサポートされています。

その他

プライベート - オンにした場合、変数および引数の値が Verbose レベルでログに出力されなくなります。

出力

ClassificationResults - 指定したファイル上で分類器ファイルを実行した結果です。IReadOnlyList<ClassificationResult> オブジェクトに格納されます。このフィールドでは IReadOnlyList<ClassificationResult> 変数のみをサポートします。

ClassificationResult オブジェクトには、次の情報が含まれています。

DocumentTypeId - タクソノミーで一致したドキュメントの種類に対応する ID です。
DocumentId - 処理されたドキュメントのファイル名です。
ContentType - 処理されたドキュメントに含まれるコンテンツの種類です。
信頼度 - 分類の信頼度を 0 から 1 の数値で表示されます。
OcrConfidence - レポートされた参照に含まれる文字に関する OCR の信頼度です。0 から 1 の数値で表示されます。
参照 - 分類の証拠となるものです。ドキュメントのテキスト版 (TextStartIndex と TextLength) だけでなく、Document Object Model (Tokens、および証拠の選択元である各ページの強調表示ボックス) にも該当します。
DocumentBounds - ドキュメントのどの部分に対して分類が行われたのかに関する情報です。StartPage (Int32、0 ベース)、PageCount (Int32)、TextStartIndex (Int32、0 ベース)、TextLength (Int32) を含みます。
ClassifierName - [ドキュメント分類スコープ] アクティビティにより自動入力されます。現在の 分類結果 をレポートする分類器の名前です。

注: ClassificationResults のすべてのコンテンツは、信頼度の降順で並べ替えられています。すなわち、最上位のコンテンツは、信頼度が最も高いことを表します。

分類器を設定ウィザードを使用する

[分類器を設定] ウィザードを使用して、分類器を各ドキュメントの種類に適用する方法と許容される結果を設定できます。

以下の手順に従ってウィザードを設定します。

ワークフローに [ドキュメント分類スコープ] アクティビティを追加します。
1 つ以上の分類器アクティビティを、[ドキュメント分類スコープ] アクティビティの内部に追加します。
1. 分類器にわかりやすい名前を付けます。
2. スコープ内で、分類器を左から右に受け入れ優先度順に並べます。
3. [分類器を設定] を選択して分類器を設定します。
  これで、ウィザードが表示されます。
  図 1. 分類器を設定ウィザードの概要
アクティブにする分類器とドキュメントの種類のペアのチェックボックスをオンにします。以下のいずれかの場合は、特定の分類器に対してドキュメントの種類をオフのままにしておくことができます。
- 分類器がその特定のドキュメントの種類を識別するようにトレーニングまたは設定されていない。
- 分類器がその特定のドキュメントの種類に対して期待どおりのパフォーマンスを発揮せず、分類器によってそのような結果が返された場合は無視する必要がある。
分類器に独自のタクソノミーがある場合は、各チェックボックスの横にあるテキスト・ボックスを使用して、2 つのタクソノミー間で正しいタクソノミーマッピングを設定します。たとえば、分類器 1 は請求書に対してクラス INV を返すように設定されているが、プロジェクトのタクソノミーには「受信請求書」というドキュメントの種類が含まれている場合、「受信請求書」とその分類器 1 に対応するボックスに文字列 INV が含まれている必要があります。
[ドキュメント分類スコープ] の各分類器に 0 から 100 の [最小信頼度] のしきい値を設定します。信頼度がこのしきい値より低い分類結果は、[ドキュメント分類スコープ] アクティビティの出力に保存されません。

ヒント: ほとんどのドキュメントの種類では、予測と信頼度レベルが生成されます。このプロパティを設定すると、しきい値を上回る信頼度レベルを持つ予測のみが考慮されるため、誤検知が防止されます。最適な信頼度レベルを特定するには、ワークフロー内でさまざまなドキュメントをテストし、その結果を Excel スプレッドシートなどに記録した上で、どのしきい値が最も正確かを分析します。しきい値は、現在のスコープの [最小信頼度] プロパティを調整して適用します。
すべての分類器を設定したら、[保存] を選択します。
図 2. [分類器を設定] ウィザードは、ドキュメントの種類ごとに異なる分類器を使用するように設定されています。