ixp
latest
false

非構造化ドキュメントと複雑なドキュメント ユーザー ガイド
最終更新日時 2025年10月20日
非構造化ドキュメントと複雑なドキュメント機能は、複雑な非構造化ドキュメントの処理機能を強化します。また、生成 AI を使用し、抽出スキーマで定義されているとおりにフィールドとフィールド グループをマッピングし、高い信頼度と精度で予測します。この高度な機能は、複雑な表やグラフなどの複雑な要素からデータを抽出することを得意としており、出力を効果的に構造化します。
このプロセスには以下が含まれます。
- モデルの初期の予測を確認する
- 確認結果に基づいてプロンプトの指示を反復的に変更する
- ドキュメントのアノテーションを行い、検証のためのグラウンド トゥルースを収集し、データ抽出のパフォーマンスを改良するための情報を提供する
契約書や長い請求書のような非構造化ドキュメントは、形式、言語、レイアウトにばらつきがあります。そのため、このようなドキュメントからデータを抽出するには、体系的でインテリジェントなアプローチが必要です。
このプロセスではまず、関連する情報を識別、解釈、抽出する際に抽出モデルをガイドする明確な指示を入力します。このような指示は、プロンプト エンジニアリングや抽出と呼ばれることが多く、AI モデルがコンテンツを正確に解釈して処理する上で重要な役割を果たします。
これらの指示には以下が含まれます。
- 日付、名前、金額、条項などのターゲット データ フィールドを定義する
- AI が類似するパターンを認識できるよう、コンテキストについての手がかりや例を提供する
このアプローチでは、詳細なプロンプト エンジニアリング、反復的なフィードバック、生成 AI の推論能力を組み合わせることにより、非構造化ドキュメントやさまざまなバリエーションがあるドキュメントからの構造化された情報の抽出が大きく向上します。