- 概要
- Document Understanding Process
- クイックスタート チュートリアル
- フレームワーク コンポーネント
- ML パッケージ
- パイプライン
- Document Manager
- OCR サービス
- Automation Suite にデプロイされた Document Understanding
- AI Center スタンドアロンにデプロイされた Document Understanding
- ディープ ラーニング
- ライセンス
- 参照
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
フォーム抽出器
フォーム抽出器は、ドキュメント内の単語の位置を分析するか、署名を検出することにより、特定の情報を抽出、照合、およびレポートするのに最適です。
フォーム抽出器では、設計段階で事前に定義されたテンプレートを使用します。複雑な一連のルールに沿って、処理対象のドキュメントに設定済みのテンプレートが適用され、目的の情報の識別と報告が行われます。
このアクティビティには設定ウィザードが用意されており、データを抽出するドキュメントの種類とフィールドのテンプレートを定義できます。
このアクティビティは簡易フィールドと表フィールドの両方の抽出をサポートしており、前述したように、署名フィールドを検出できます。
フォーム抽出器について詳しくは、以下のページをご覧ください。
- [フォーム抽出器] アクティビティのページ
- タクソノミー マネージャー - 設定手順
- テンプレート マネージャー ウィザード - 設定手順
- アンカーベースのワークフローの例
以下の場合は、他の抽出方法を検討することをお勧めします。
- 多くのレイアウトを処理する必要がある場合
-
ドキュメントに傾斜、回転、サイズの違いがあるだけでなく、「歪み」(特定領域が湾曲している) も見られる場合
注:固定フォーム抽出の場合、2 つのファイルのレイアウトが同じかどうかを評価するには、ある程度の透明度を持たせて、ツールでそれらを重ねてみて、(回転および傾斜を解除し、2 つの画像を同じスケールにした後に) すべての非可変コンテンツが重なるかどうかを確認します。
ばらつきが見つかった場合 (非可変コンテンツは、ドキュメントの特定領域の左/右/上/下により多く表示されます)、レイアウトは同じとは見なされません。
フォーム抽出器を使用すると、同じドキュメントの種類に複数のテンプレートを定義し、実行時に以下を行うことができます。
- 受け取るドキュメントおよびドキュメントの種類に最も適合するテンプレートを特定します。
- ページ レベルのアンカーに基づいて、抽出するデータが存在する各ページにテンプレート一致アルゴリズムを適用します (ページの欠落や繰り返しはサポートされていません)。
- すべてのフィールドレベルのアンカー設定を各ページに適用し、潜在的な一致に関連付けられた値をキャプチャします。
- 対象の値領域から特定された情報を報告します。
チェックボックス/ブール値フィールドの処理の微調整もサポートされており、ユース ケースに応じて「はい」または「いいえ」の「類義語」を設定できます。
この抽出器には学習 (トレーニング) 機能はなく、設定が必要です。
フォーム抽出器には、考慮すべき主要な設定が 2 つあります。
- テンプレート マネージャー ウィザード - 処理するドキュメントに適用するテンプレートを定義できます。このウィザードでは、テンプレート エディターを使用したり、ブール値フィールドの解釈を設定したりできます。
- [重複率の最小値] の設定 - 値領域の一致度の厳密さを制御できます。
0
から100
の値を指定できます。単語の位置がテンプレートで定義された領域にどの程度適合しているかに基づいて、その単語を特定の値の一部として受け入れるか拒否するかを決定します。
[フォーム抽出器] アクティビティ ウィザードの使用について詳しくは、こちらをご覧ください。