- 概要
- モデルの構築
- モデルの検証
- モデルのデプロイ
- API
- よくある質問

非構造化ドキュメントと複雑なドキュメント ユーザー ガイド
インテリジェントな前処理オプションにより、複雑な書式設定のためにモデルがドキュメントを解釈することが難しい場合でも、予測パフォーマンスが向上します。
- なし - これは既定のオプションです。表形式コンテンツを含まないほとんどのドキュメントに適しています。
- 表モデル - mini - 表形式のコンテンツと待機時間に対して最適化されています。このオプションは、単純な表または複数の表を含むドキュメントに最適です。
- 表モデル - より複雑な表形式のコンテンツ用に最適化されています。このオプションは、複雑な入れ子になった表を含むドキュメント、セルが結合された表、箇条書き、または複数のページにまたがる表に最適です。
注:
- この場合、複雑な表で最高のパフォーマンスが得られますが、予測の待機時間が長くなります。
- この機能は、AI Trust Layer を介して Gemini モデルに依存します。
インテリジェントな前処理の例
this period の値が year to date 列の値と混同されています。this period と year to date の両方の列の値が正しく抽出されています。[抽出モデル] オプションは、抽出に使用される基盤となる LLM を表します。
- GPT-4o
- Gemini
最適なモデルを選ぶ
モデルによって、ユースケースごとのパフォーマンスは異なりますが、可能な場合は Gemini の使用をお勧めします。パフォーマンスとユーザー エクスペリエンスの最適化に役立つ他のいくつかの前処理および後処理機能も Gemini ベースです。
GPT-4o には 50 ページの制限があり、プライベート プレビューである反復呼び出し機能を使用してのみ、それ以上のページを処理できます。
Gemini の場合、IXP 内で最大 500 ページのドキュメントを 1 回の呼び出しで処理できます。プレビューでは、それ以上のページ数がサポートされています。Gemini の制限は、ドキュメント内のフィールド値の密度に応じて若干異なる場合があります。GPT-4o の入力制限が 50 ページであるのに対し、Gemini モデルの入力制限は既定で 500 ページです。さらに、Gemini の出力コンテキスト ウィンドウは広いため、より多くのフィールド値を扱うことができます。
あるモデルから別のモデルに切り替える
あるモデルから別のモデルに切り替えるには、[抽出モデル] オプションのドロップダウン リストを使用して [保存] を選択します。これにより、新しいプロジェクト バージョンが作成され、新しい予測が自動的に生成されます。
パフォーマンス上の理由からモデルを切り替える必要がある場合は、まず、現在のモデルでは解決できない主要な問題を代替モデルで解決できるかどうかを確認します。解決できる場合は、新しいモデルを最適化して、[評価] でパフォーマンス メトリックを改善します。
ドキュメント処理の制限
実際には、IXP はドキュメントあたり最大 1,200 件のフィールド値を確実に抽出できます。
つまり、ドキュメントで 1,200 件を超えるフィールド値を抽出する必要がある場合、モデルがトークンの制限に達する可能性があります。これは、ドキュメントがこのセクションに記載されているページ制限内に十分収まっている場合でも発生する可能性があります。今後のリリースでより大きいフィールド値の上限をサポートするために、研究開発に取り組んでいます。
トークンの上限を超えた場合、ページ数に関係なく、予測が不完全または空になる可能性があります。たとえば、80 ページのドキュメントで 1,400 件のフィールド値が抽出された場合、トークンの上限に関する警告がユーザー インターフェイスに表示されることがあります。実行時にトークンの上限を超えた場合は、API 応答で発生の信頼度と抽出結果の信頼度の値として 0 が返されて、上限を超えたことが示されます。
ページの上限を超えた場合、以下のように、指定された上限に収まるページのみが処理されます。これらの動作は両方が Gemini と GPT-4o の両方に適用されます。
以下のような実行時の制限事項があります。
- ドキュメントあたりのページ数:
- Gemini の場合、最大 500 ページ。
- GPT-4o の場合、50 ページ。プライベート プレビュー機能である繰り返し呼び出しを使用する場合は最大 150 ページ。
- トークンの制限 - 長い表など、抽出件数が 200 を超えるデータ量の多いドキュメントは、トークンの制限に達する可能性があります。GPT4-o が制限に達した場合は、プライベート プレビュー機能である繰り返し呼び出しを使用してフィールドの出力を増やすことができます。一方、Gemini では既定で出力トークンの制限が高いため、両方のモデルで同等の量のフィールド値を返すことができます (Gemini は 1 回の呼び出しで返し、GPT は複数回の呼び出しで返します)。
詳細オプションでは、モデルの設定をカスタマイズしたり、使用する属性付け方法を選択したり、プロンプトの上書きを使用したりできます。
設定を展開すると、利用可能なすべてのオプションが表示されます。
- 属性付け - 予測をドキュメント内の関連する部分またはテキストに属性付けするために使用する方法です。以下のいずれかのオプションを選択します。
- ルールベース - 広範なルールとヒューリスティックのセットを使用して、ページ上の正しい範囲をモデルからの予測値に一致させます。これは低レイテンシのオプションですが、モデルベースのオプションと比較して、属性付けの成功という点ではパフォーマンスを犠牲にします。
- モデルベース - 追加の LLM 呼び出しを使用して、予測値をページ上の正しい範囲に正常に一致させます。多くの場合、これらの値はページのさまざまな部分で繰り返される可能性があるためです。これは、属性付けの成功という点では最もパフォーマンスの高いオプションですが、予測に多少のレイテンシが加わります。このオプションは、Gemini モデルの使用に依存します。
- 温度 - 使用するサンプリング温度です。0.0 から 2.0 の間の数値を選択します。値が大きいほど、出力はランダムになります。
- 上位 P - 確率質量が
top_pの値のトークンからのみサンプリングします。0.0 から 1.0 までの数値を選択します。 - シード - 指定すると、同じシードとパラメーターで要求を繰り返し実行した場合に、同じ結果が返されます。
- 頻度ペナルティ - -2.0 から 2.0 の数値を選択します。正の値を指定すると、すでにテキスト内に出現したトークンがモデルによって繰り返される確率が低くなります。
- プロンプトの上書き - 既定のシステム プロンプトを新しい値で上書きします。このオプションは既定では無効化されています。有効化すると、[タスクの指示のプロンプトを追加] オプションと [フィールドの指示のプロンプトを追加] オプションが有効化されて設定できるようになります。