- 基本情報
- フレームワーク コンポーネント
- データ抽出の概要
- [データ抽出スコープ] の抽出器を設定ウィザード
- 正規表現ベースの抽出器
- フォーム抽出器
- インテリジェント フォーム抽出器
- マシン ラーニング抽出器
- FlexiCapture 抽出器
- データ抽出関連のアクティビティ
- AI Center での Document Understanding
- パイプライン
- ML パッケージ
- データ マネージャー (Data Manager)
- OCR サービス
- ライセンス
- 参照
Document Understanding ガイド
[データ抽出スコープ] の抽出器を設定ウィザード
[データ抽出スコープ] を介してアクセスする 抽出器を設定ウィザードを使用すると、各ドキュメントの種類およびフィールドに適用する抽出器を選択できます。
[抽出器を設定] ボタンをクリックすることで、アクティビティのボディから開くことができます。ウィザードのボタンは、少なくとも 1 つの抽出アクティビティを [データ抽出スコープ] アクティビティのボディにドラッグすると使用可能になります。このウィザードには、タクソノミーで定義されたすべてのドキュメントの種類とそれぞれのフィールドが表示され、それぞれに使用する抽出プログラムを選択できます。
ドキュメントの種類はそれぞれ展開可能です。ウィザードで対応する各フィールドを表示して、抽出に選択できます。
[フレームワーク エイリアス] フィールドを使用すると、抽出器を 1 つ以上のトレーナーにマッピングできます。たとえば、[マシン ラーニング抽出器] に R2D2 というエイリアスを割り当て、[マシン ラーニング抽出器トレーナー] で同じエイリアスを使用できます。これは抽出器のトレーニングという目的を持ち、これにより抽出器とトレーナーの間にリンクが形成されます。各抽出器は一意のエイリアスを持ちますが、トレーナーは、複数で同じエイリアスを共有できます。
[最小信頼度] フィールドは、信頼度の閾値を表し、0~100の値で設定できます。この閾値を上回った抽出データが考慮されます。選択したフィールドの結果の信頼度レベルがこの信頼度閾値を下回った場合、最終結果では報告されません。
この機能をサポートする抽出器の [抽出器機能を取得または更新します。] ボタンを使用して、タクソノミー フィールドと利用可能な抽出器フィールドを簡単にマッピングし、抽出器フィールドが変更された場合には更新できます。
列の各フィールドの横にあるチェックボックスをオンにすると、抽出器が指定したフィールドの値を要求します。チェックボックスをオフにすると、データ抽出時にこのフィールドが無視されます。
各ドキュメント フィールドの横にあるテキスト フィールドでは、タクソノミーで定義したフィールドを抽出器の内部タクソノミーで定義したフィールドとマッピングできます (存在する場合)。
ウィザードの列数は、スコープ アクティビティで示される抽出器の数によって異なります。各列の名前は、それぞれの抽出器アクティビティの表示名です。
アクティビティで複数の抽出器を使用する場合、スコープ内の抽出器の順序によって優先順位が定義されます。たとえば、上の画像では、要求された特定のフィールドに対して [抽出器 1] が許容値 (最小信頼度レベルを上回る値) を返すと、[抽出器 2] と [抽出器 3] の実行時にこのフィールドは要求されません。この特定のフィールドに対して [抽出器 1] と [抽出器 2] が最小信頼度レベルを下回る値を返した場合、または何も返さなかった場合、[抽出器 3] からの結果が信頼度許容条件を満たせば、この結果が考慮されます。