- 概要
- モデルの構築
- モデルの検証
- モデルのデプロイ
- モデルを使用する
- API
- よくある質問
非構造化ドキュメントと複雑なドキュメント ユーザー ガイド
日本リージョンでは、この機能をプレビュー版で利用可能です。
概要
拡張言語の Layout モデルは、IXP のインテリジェントな前処理オプションであり、これによって抽出精度の向上が望めます。このオプションは、メインの抽出モデルと組み合わせ、必要に応じて使用する正規化手順です。LLM でドキュメントを処理する前に、そのドキュメントの表示形態を改善するうえで効果的です。表、フォーム、複数列のレイアウト、チェックボックスを使用したドキュメントのように、ページ上での情報の位置が重要なドキュメントで特に有用です。
抽出モデルでドキュメントのコンテンツを処理する前に、テキストなどの各種要素がページ上でどのように配置されているかといった、ドキュメントの視覚的な構造を Layout モデル (Extended Languages) で分析します。このオプションは、拡張文字セットや複雑なレイアウトを使用するドキュメントの精度向上に特化して設計されています。他の前処理オプションでは、このようなドキュメントの構造を正確に把握できないことがあります。
メリット
Layout モデル (Extended Languages) 機能には次の利点があります。
- 構造に重点を置いた前処理 – プロンプトの変更やモデルの切り替えを必要とせずに、抽出時のドキュメント レイアウトの解釈方法を改善できます。コンテンツの意味よりも、ドキュメントの構造によって精度が変化する場合に特に効果的です。
- 行と列のマッピング精度の向上 – 構造が重要なリレーションシップを保持します。
- チェックボックス抽出の強化 – チェックボックス フィールドの検出とマッピングの信頼性が向上しました。
- シームレスなワークフロー連携 – テスト、検証、スコアリング、バージョン比較で、既存の IXP プロセス上で機能します。
Layout モデルを使用する
Layout モデルを使用するには以下の手順を実行します。
- [構築] タブに移動します。
- [モデルの設定] を選択します。
- [インテリジェントな前処理] で [Layout モデル (Extended Languages)] を選択します。
Layout モデルを使用すべき状況
前処理オプションとして [なし]、[表モデル - mini]、または [表モデル] を使用すると、想定した抽出精度が得られない場合にこの機能を使用します。
次のシナリオで、この機能が特に効果的です。
- 高密度の財務諸表とレポート — 複数の行、セクション、入れ子になった表を整然と配置した状態を維持する必要があるドキュメント。このようなドキュメントとして、証券取引明細書、ローン申請書、サービス レポートなどがあります。
- チェックボックスが多いフォーム — 隣接するチェックボックスや繰り返し使用されているチェックボックスが多数あるフォーム。このようなフォームで多く見られる失敗モードは、チェックボックスとフィールドとのマッピングの誤りです。保険、医療、オンボーディング、規制対象のフォームなどが該当します。
- 業務用の明細項目ドキュメント — 意味の広範な把握よりも正しい行認識が重要なドキュメント。梱包明細書、広告掲載オーダー、サービス オーダー、マニフェストなどが考えられます。
- パフォーマンスが低いドキュメント セット — 標準の抽出では優れたパフォーマンスが得られないドキュメントのファミリ。エラーの原因が、指示に問題があるためではなく、行と列やチェックボックスの不一致にある場合に特に効果的です。
Layout モデル (Extended Languages) の前処理例
Layout モデル (Extended Languages) を使用せずに LLM にクエリを実行した抽出の例を以下の図に示します。申請者による選択として、[Single-Closing] と [No Cash Out] が誤って抽出されています。
Layout モデル (Extended Languages) を使用した抽出の例を以下の図に示します。ここでは、両方のフィールドの値が正しく抽出されています。指示は変更されていません。