- 基本情報
- フレームワーク コンポーネント
- AI Center での Document Understanding
- パイプライン
- ML パッケージ
- データ マネージャー (Data Manager)
- OCR サービス
- ライセンス
- 参照
Document Understanding ガイド
フォーム抽出器
フォーム抽出器は、非可変形式のドキュメントを、それらから抽出したデータを使用して処理する必要がある場合に最適な抽出アプローチです。言い換えれば、ドキュメントのレイアウトにほとんど、またはまったく変化がない場合、フォーム抽出器はよい選択肢です。
フォーム抽出器は、設計段階で事前に定義されたテンプレートを利用して、複雑な一連のルールを適用し、設定されたテンプレートを処理する受信ドキュメントに適用することで、期待される情報を特定して報告します。
このアクティビティには、この方法でデータ抽出の対象にするドキュメントの種類とフィールドのテンプレートを定義するための設定ウィザードが付属しています。
このアクティビティは、簡易フィールドとテーブル フィールドの両方の抽出をサポートしています。
以下の場合は、他の抽出方法を検討することをお勧めします。
- 多くのレイアウトを処理する必要がある場合
- ドキュメントに傾斜、回転、サイズの違いがあるだけでなく、「歪んでいる」(特定領域が湾曲している) ことが明らかな場合。
注:
固定フォーム抽出の場合、2 つのファイルのレイアウトが同じかどうかを評価するには、ある程度の透明度を持たせて、ツールでそれらを重ねてみて、(回転および傾斜を解除し、2 つの画像を同じスケールにした後に) すべての非可変コンテンツが重なるかどうかを確認します。
ばらつきが見つかった場合 (非可変コンテンツは、ドキュメントの特定領域の左/右/上/下により多く表示されます)、レイアウトは同じとは見なされません。
フォーム抽出器を使用すると、同じドキュメントの種類に複数のテンプレートを定義し、実行時に以下を行うことができます。
- 受け取るドキュメントおよびドキュメントの種類に最も適合するテンプレートを特定します。
- ページ レベルのアンカーに基づいて、抽出する必要のあるデータが存在する各ページに、テンプレート マッチング アルゴリズムを適用します (ページの欠落や繰り返しはサポートされません)。
- 対象の値領域から特定された情報を報告します。
チェックボックス/Boolean フィールド処理の微調整もサポートされており、ユース ケースに応じて「はい」または「いいえ」の値の「類義語」を設定できます。
この抽出器には学習 (トレーニング) 機能がなく、事前の設定が必要です。
この抽出器を使用するには、Automation Cloud Document Understanding の API キーを使用するか、オンプレミスの AI Center でフォーム抽出器の独自インスタンスをホストする必要があります。
フォーム抽出器には、考慮すべき主要な設定が 2 つあります。
- テンプレート マネージャー ウィザード - 受け取るドキュメントに適用するテンプレートを定義できます。このウィザードにより、Boolean フィールドの解釈設定とともに、テンプレート エディター ウィザードも使用可能になります。
- [重複率の最小値] の設定 - 値領域の一致の厳密さを制御できます。0 から 100 の値を指定でき、それらの位置がテンプレートで定義された領域にどの程度適合しているかに基づいて、特定の値に含めることを許可または拒否する単語を制御します。
タクソノミーで定義されたドキュメントの種類のテンプレートの作成、編集、管理ならびにエクスポート/インポートを可能にするウィザードです。
テンプレートを作成する
- [データ抽出スコープ] 内のワークフローに [フォーム抽出器] アクティビティを追加します。
- [テンプレートを管理] ボタンをクリックして抽出器を構成します。
- [テンプレート マネージャー] ウィンドウが開きます。
- [テンプレート マネージャー] ウィンドウが開きます。
- [テンプレートを作成] ボタンをクリックして新しいテンプレートを作成します。
- [ドキュメントの種類] ドロップダウン リストから、テンプレートを定義するドキュメントの種類を選択します。
注: [ドキュメントの種類] は、すべてタクソノミーに基づいています。必ず、プロジェクトのフォルダー内にタクソノミーを追加または作成してください。
- [テンプレート名] フィールドに名前を追加します。ドキュメントのバージョン、またはキャプチャや設定を行うレイアウトを表す適切な名前にしてください。
- [テンプレート ドキュメント] フィールドにドキュメント パスを追加します。
- [参照] ボタンにより、ファイルのパスに移動します。
- [OCR エンジン] ドロップダウン リストから OCR を選択し、必要に応じて設定します。
- [設定] ボタンをクリックして、テンプレートの編集をトリガーします。
OCR エンジンは必要な場合にのみ適用されます。テンプレートを構築するために選択されたドキュメントがネイティブ PDF である場合、OCR エンジンは実行されません。
各 OCR エンジンには、それぞれ独自のカスタム オプションが付属しています。各 OCR エンジンで利用可能なすべてのオプションに関する詳細は、こちらをご覧ください。
テンプレートを作成済みの場合、これを編集、エクスポート、または削除できます。
[削除] と [エクスポート] ボタンは、テンプレートを少なくとも 1 つ選択したときのみ使用できるようになります。個別のテンプレートの [編集] および [削除] オプションは、いつでも使用できます。
Boolean フィールド処理を設定する
Yes
または No
の値にマッピングします。
テンプレートをエクスポートおよびインポートする
他のワークフローで作成およびエクスポートされたテンプレートをインポートできます。これらの機能を使用してプロジェクト間でテンプレートを共有し、フォーム抽出器を使用してドキュメントの種類を設定した後は、新しい実装でテンプレートを再設定しなくても済むようにします。
エクスポートの手順
テンプレートをエクスポートするときに従う必要がある手順を以下に示します。
- このページの前半で説明した手順に従い、1 つ以上のテンプレートを作成します。
- エクスポートするテンプレートを選択します。
- 次のスクリーンショットのように、[エクスポート] オプション (元のファイルを含める/含めない) を選択します。元のファイルを含めるエクスポートでは、元のファイルが添付されます。元のファイルを含めずエクスポートするオプションでは、テンプレート作成に使用したファイルが添付されません。
- 希望の名前でテンプレートのアーカイブを保存します。
- テンプレートが保存されると、メッセージが表示されます。[OK] ボタンを選択します。
注:テンプレートを作成したドキュメントのコンテンツを共有できない場合は、「元のファイルを含めない」オプションを使用します。他のプロジェクトでテンプレート アーカイブを共有およびインポートすることはできますが、編集や表示はできなくなります。
別のプロジェクトでインポートしたテンプレートを編集する場合は、エクスポートしてからインポートする際に「元のファイルを含める」オプションを使用してください。
インポートの手順
テンプレートをインポートするときに従う必要がある手順を以下に示します。
- [インポート] ボタンを選択します。
- アーカイブを選択します。インポート ウィザードが表示され、選択したエクスポート アーカイブで使用できるドキュメントの種類とテンプレートがすべて提示されます。インポートするテンプレートを、適切なインポート オプション (元のファイル含む / 含まない) とともに選択します。
注:- テンプレートがインポートされると、プロジェクトの分類データ内にドキュメントの種類が自動的に作成されます。同名のドキュメントの種類が既に存在する場合、名前の末尾に数字を付加して、もう 1 つのドキュメントの種類が作成されます。
- 元のファイルなしでエクスポートされたテンプレートをインポートする場合、または元のファイル含めずにテンプレートをインポートする場合、それらのテンプレートに対しては表示または編集のオプションを使用できません。
テンプレートのインポート時の特殊な状況
テンプレートをインポートすると、いくつかの特殊な状況が発生する場合があります。次の表で、各状況について、その特殊性を含めて説明します。
インポートの種類 |
アクティビティの動作 |
---|---|
新しいドキュメントの種類 |
新しいドキュメントの種類をインポートすると、ウィザード コンフィギュレーターに新しいフィールドが追加され、新しいテンプレートが作成されることを知らせます。 |
重複するドキュメントの種類 |
同一のドキュメントの種類をインポートすると、次の警告メッセージが表示されます。
|
拡張テンプレート |
既存のフィールド以外のフィールドが追加されたドキュメントの種類のテンプレートをインポートすると、次の警告メッセージが表示されます。
|
拡張されたドキュメントの種類 |
既存のフィールド以外のフィールドが追加されたドキュメントの種類をインポートすると、次の警告メッセージが表示されます。
|
同じ名前で内容が異なるドキュメントの種類 |
既存のものと同じ名前でありながら、フィールドが異なるドキュメントの種類をインポートすると、次の警告メッセージが表示されます。
|
表が欠落したドキュメントの種類 |
ユーザーが表を含まないドキュメントの種類をインポートすると、次の警告メッセージが表示されます。
|
表が拡張されたドキュメントの種類 |
余分な列がある表を含むドキュメントの種類をインポートすると、次の警告メッセージが表示されます。
|
表が縮小されたドキュメントの種類 |
列が欠落した表を含むドキュメントの種類をインポートすると、次の警告メッセージが表示されます。
|
異なるドキュメントの種類による表のテンプレート |
異なるドキュメントの種類の表を含むドキュメントの種類のテンプレートをインポートした場合、新しいテンプレートが作成されます。 タクソノミーに、ドキュメントの種類が異なるフィールドを持つ表が含まれている場合、次の警告メッセージが表示されます。
|
ページ レベルのアンカーを設定する
テンプレートを定義または編集する際、最初に実行すべきことは、固定フォーム テンプレートを定義するために、[ページ 1 の一致情報] を選択することです。
このフィールドは画面左側に表示される最初のフィールドで、テンプレートの最初のページの単語 (トークンのみが受け入れられます) で設定する必要があります。単語は、その特定のテンプレート レイアウト内で常に同じ位置にあり、特定のドキュメントの種類に定義されたすべてのテンプレートで一意の単語のグラフ (単語間の相対距離や角度を考慮して) を形成します。言い換えれば、[ページ 1 の一致情報] (および他のすべてのページ一致情報フィールド) は特定ページの「指紋」であり、実行時に適合するテンプレートを識別するのに幅広く使用されます。
このため、[ページ 1 の一致情報] フィールドには 10 ~ 20 の単語を選択することが強く推奨されます。そのドキュメントの種類に定義されたすべてのテンプレートで一意のパターンを形成するように、できれば長く、ページ領域全体に広がるようにしてください。
他の「ページの一致情報」系のフィールド (テンプレート ページごとに 1 つ) には、その特定のページからデータ抽出を試みており、テンプレート間の一意性が不要な場合にのみ値を入力する必要があります。特定のページからフィールドを抽出する必要がない場合、そのページのページ レベルの一致情報を定義する必要はありません。
単純フィールドを設定する
テーブル以外のすべてのフィールドでは、テンプレートの設定は、カスタム領域の選択とそれらの特定フィールドへの割り当てで構成されます。
固定フォームの設定の場合、データ フィールドはカスタム領域の選択を使用してのみ設定できます。
すべてのフィールドに対して、(+) ボタンを使用してこうしたカスタム領域を 1 つ以上定義できます。1 つのフィールドに 2 つ以上のカスタム領域を定義する場合、実行時に、フィールドがタクソノミーで単一の値として定義されていると、すべてのカスタム領域のすべての値が 1 つの報告値に連結されます。一方、フィールドが複数値として定義されていると、各カスタム領域の各値が個別に報告されます。
以下のアニメーションは、トークンとカスタム領域の選択の違いを示しています。
次のアニメーションに示すように、各フィールドの横にあるアイコンを確認することでも、そのフィールドに対して受け入れた選択の種類がわかります。
空の領域を選択した場合、選択領域は自動的に [カスタム領域] として設定されます。選択した領域にテキストが検出されると、選択領域の種類として [トークン] または [カスタム領域] のどちらかを選択するよう求められます。
検証ステーションの「選択モード」機能を使用して、トークンとカスタム領域の間で選択をロックします。
テーブルを設定する
上記のように、トークンによってのみ (「ページの一致情報」系のフィールドなど) またはカスタム領域によってのみ (簡易フィールドなど)、情報を追加できるフィールドがあります。「テーブル」系のフィールドでは、以下を行うことができます。
- テーブル エディターを展開したら、各セルを 1 つずつ定義する - 各セルに個別にカスタム領域の選択を追加します。
- テーブル マークアップ機能を使用する - テーブル領域をマークし、行および列の区切りを作成して、マークしたテーブルをフィールドに割り当てます。
テーブル マークアップ機能の使用方法については、以下のアニメーションをご覧ください。