Document Understanding - フォーム抽出器

document-understanding

2022.10

false

Document Understanding ガイド

重要 :

このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

フォーム抽出器

フォーム抽出器とは

フォーム抽出器は、非可変形式のドキュメントを、それらから抽出したデータを使用して処理する必要がある場合に最適な抽出アプローチです。言い換えれば、ドキュメントのレイアウトにほとんど、またはまったく変化がない場合、フォーム抽出器はよい選択肢です。

フォーム抽出器では、設計段階で事前に定義されたテンプレートを使用します。複雑な一連のルールに沿って、処理対象のドキュメントに設定済みのテンプレートが適用され、目的の情報の識別と報告が行われます。

このアクティビティには設定ウィザードが用意されており、データを抽出するドキュメントの種類とフィールドのテンプレートを定義できます。

このアクティビティは、単純フィールドと表フィールドの両方のデータ抽出をサポートしています。

以下の場合は、他の抽出方法を検討することをお勧めします。

多くのレイアウトを処理する必要がある場合
ドキュメントに傾斜、回転、サイズの違いがあるだけでなく、「歪み」(特定領域が湾曲している) も見られる場合

注:
固定フォーム抽出の場合、2 つのファイルのレイアウトが同じかどうかを評価するには、ある程度の透明度を持たせて、ツールでそれらを重ねてみて、(回転および傾斜を解除し、2 つの画像を同じスケールにした後に) すべての非可変コンテンツが重なるかどうかを確認します。

ばらつきが見つかった場合 (非可変コンテンツは、ドキュメントの特定領域の左/右/上/下により多く表示されます)、レイアウトは同じとは見なされません。

フォーム抽出器を使用すると、同じドキュメントの種類に複数のテンプレートを定義し、実行時に以下を行うことができます。
受け取るドキュメントおよびドキュメントの種類に最も適合するテンプレートを特定します。
ページレベルのアンカーに基づいて、抽出するデータが存在する各ページにテンプレート一致アルゴリズムを適用します (ページの欠落や繰り返しはサポートされていません)。
すべてのフィールドレベルのアンカー設定を各ページに適用し、潜在的な一致に関連付けられた値をキャプチャします。
対象の値領域から特定された情報を報告します。

チェックボックス/ブール値フィールドの処理の微調整もサポートされており、ユースケースに応じて「はい」または「いいえ」の「類義語」を設定できます。

この抽出器には学習 (トレーニング) 機能はなく、設定が必要です。

特別な要件

この抽出器を使用するには、Automation Cloud Document Understanding の API キーを使用するか、オンプレミスの AI Center でフォーム抽出器の独自インスタンスをホストする必要があります。

テンプレートエディターでアンカー機能を使用できるようになったため、固定のドキュメントの種類に含まれる単純フィールドに、アンカーベースのデータ抽出ルールを定義できます。アンカーの使用および設定について詳しくは、こちらをご覧ください。

フォーム抽出器とは
特別な要件

このページは役に立ちましたか?

前へ正規表現ベースの抽出器

次へインテリジェントフォーム抽出器