アクティビティ

データ抽出スコープ

UiPath.IntelligentOCR.Activities.DataExtraction.DataExtractionScope

抽出器のアクティビティにスコープを提供して、タクソノミーで定義したドキュメントの種類に従って抽出器を設定できるようにします。このアクティビティの出力結果は、自動的に抽出されたすべてのデータを含めて ExtractionResult 変数に格納され、[抽出結果をエクスポート] アクティビティの入力値として使用できます。また、このアクティビティは、抽出器を設定ウィザードを備えており、タクソノミーで定義したドキュメントの種類から抽出対象とするフィールドを指定できます。

プロパティ

共通

表示名 - アクティビティの表示名です。

入力

生成 AI による検証を適用 (プレビュー) - 生成 AI による抽出のクロスチェックを使用して、信頼度を調整します。生成 AI によって確認された報告値の信頼度は 99% に引き上げられます。パブリックプレビュー中は、この機能を有効化しても追加の AI ユニットは消費されません。一般提供が開始された後は、追加で消費される場合があります。最新の情報については、リリースノートをご覧ください。
分類結果 - 指定したドキュメント上で分類器アクティビティを実行した結果です。ClassificationResult オブジェクトに格納されます。このフィールドは、[ドキュメント種類 ID] を指定している場合には、任意になります。このフィールドでは、ClassificationResult 型の変数のみがサポートされています。
ドキュメントオブジェクトモデル - ドキュメントの検証に使用するドキュメントオブジェクトモデルです。このモデルは Document 変数に格納され、[ドキュメントをデジタル化] アクティビティから取得できます。その方法の詳細については、このアクティビティのドキュメントをご覧ください。このフィールドでは Document 変数のみをサポートします。
ドキュメントパス - 検証するドキュメントへのパスです。このフィールドは、文字列と String 型変数のみをサポートします。

注: このプロパティフィールドでサポートされているファイルは、.png、.gif、.jpe、.jpg、.jpeg、.tiff、.tif、.bmp、.pdfです。
ドキュメントテキスト - String 型変数に格納されたドキュメント自体のテキスト。この値は、[ドキュメントをデジタル化] アクティビティから取得できます。その方法の詳細については、このアクティビティのドキュメントをご覧ください。このフィールドでは、文字列と String 型変数のみがサポートされています。
ドキュメント種類 ID - タクソノミーマネージャーで特定されるドキュメントの種類の ID です。このフィールドは、[分類結果] でファイルを指定している場合には、任意になります。このフィールドは、文字列と String 型変数のみをサポートします。
可能な場合は値を書式化 - 値に派生部分が報告されている場合、データ抽出スコープによって上書きされないことを指定し、派生部分が含まれていない場合、データ抽出スコープが計算を試みます。オプションが False に設定されている場合、値が書式化されません。
生成 AI による検証の信頼度のしきい値 (プレビュー) - 生成 AI による検証で使用する信頼度のしきい値です。このしきい値を下回る信頼度のフィールド値のみが検証されます。値が確認されると、値の信頼度はこのしきい値に設定されます。
タクソノミー - ドキュメントの処理に使用するタクソノミーです。DocumentTaxonomy 変数に格納されます。このオブジェクトは、[タクソノミーを読み込み] アクティビティで使用します。このフィールドでは DocumentTaxonomy 変数のみをサポートします。

その他

プライベート - オンにした場合、変数および引数の値が Verbose レベルでログに出力されなくなります。

出力

抽出結果 - データ抽出処理の抽出結果です。ExtractionResult 変数に格納されます。

注: データ抽出のページ範囲として、元のファイルの一部分のみが指定されている場合、[データ抽出スコープ] は TEMP プロジェクトフォルダーにファイルを生成した後、それを抽出器に渡します。この一時ファイルには、ドキュメント処理のために抽出器が受け取るべきページ範囲のみが含まれます。

抽出器を設定ウィザードを使用する

[データ抽出スコープ] を介してアクセスできる 抽出器を設定ウィザードを使用すると、各ドキュメントの種類およびフィールドに適用する抽出器を選択できます。

アクティビティの本体から、[抽出器を設定] ボタンをクリックします。ウィザードのボタンは、少なくとも 1 つの抽出アクティビティを [データ抽出スコープ] アクティビティの本体にドラッグすると使用可能になります。このウィザードには、分類データで定義されたすべてのドキュメントの種類とそれぞれのフィールドが表示され、それぞれに使用する抽出器を選択できます。

ドキュメントの種類はそれぞれ展開可能です。ウィザードで対応する各フィールドを表示して、抽出に選択できます。

[フレームワークエイリアス] フィールドを使用すると、抽出器を 1 つ以上のトレーナーにマッピングできます。たとえば、[マシンラーニング抽出器] に R2D2 というエイリアスを割り当て、[マシンラーニング抽出器トレーナー] で同じエイリアスを使用できます。これは抽出器のトレーニングという目的を持ち、これにより抽出器とトレーナーの間にリンクが形成されます。各抽出器は一意のエイリアスを持ちますが、トレーナーは、複数で同じエイリアスを共有できます。

[最小信頼度] フィールドは、信頼度の閾値を表し、0～100の値で設定できます。この閾値を上回った抽出データが考慮されます。選択したフィールドの結果の信頼度レベルがこの信頼度閾値を下回った場合、最終結果では報告されません。

この機能をサポートする抽出器の [抽出器機能を取得または更新します。] ボタンを使用して、タクソノミーフィールドと利用可能な抽出器フィールドを簡単にマッピングし、抽出器フィールドが変更された場合には更新できます。

列の各フィールドの横にあるチェックボックスをオンにすると、[データ抽出スコープ] は、その特定のフィールドを抽出器に要求します。チェックボックスがオフの場合、[データ抽出スコープ] は、そのフィールドの値を抽出器に要求しません。

各フィールドの横にあるテキストフィールドでは、タクソノミーで定義したフィールドを、抽出器の内部タクソノミーで定義されているフィールドとマッピングできます (存在する場合)。標準フィールドの場合は、テキスト入力に、抽出器の内部タクソノミーからターゲットフィールドの識別子を追加します。表フィールドの場合は、親の表フィールドが表レベルでマッピングされ、対応する列が個別にマッピングされます。

注: [マシンラーニング抽出器] を、定義された列フィールドがある設定で使用する場合、列フィールドをタクソノミーの表フィールドにマッピングできます。これらは、items というコレクションの下に表示されます。

ウィザードの列数は、スコープアクティビティで示される抽出器の数によって異なります。各列の名前は、それぞれの抽出器アクティビティの表示名です。

アクティビティ内で複数の抽出器が使用される場合、スコープ内の抽出器の順序によって優先順位が定義されます。たとえば、上の画像では、要求された特定のフィールドに対して [抽出器 1] が許容値 (最小信頼度レベルを上回る値) を返すと、[抽出器 2] と [抽出器 3] の実行時にこのフィールドは要求されません。その特定のフィールドに対して [抽出器 1] と [抽出器 2] が最小信頼度レベルを下回る値を返した場合、または何も返さなかった場合、[抽出器 3] からの結果が信頼度許容条件を満たせば、その結果が考慮されます。