
非構造化ドキュメントと複雑なドキュメント ユーザー ガイド
インテリジェントな前処理オプションにより、複雑な書式設定のためにモデルがドキュメントを解釈することが難しい場合でも、予測パフォーマンスが向上します。
- なし - これは既定のオプションです。表形式コンテンツを含まないほとんどのドキュメントに適しています。
- 表モデル - mini - 表形式のコンテンツと待機時間に対して最適化されています。このオプションは、単純な表または複数の表を含むドキュメントに最適です。
- 表モデル - より複雑な表形式のコンテンツ用に最適化されています。このオプションは、複雑な入れ子になった表を含むドキュメント、セルが結合された表、箇条書き、または複数のページにまたがる表に最適です。
注:
- この場合、複雑な表で最高のパフォーマンスが得られますが、予測の待機時間が長くなります。
- この機能は、AI Trust Layer を介して Gemini モデルに依存します。
インテリジェントな前処理の例
this period の値が year to date 列の値と混同されています。this period と year to date の両方の列の値が正しく抽出されています。[抽出モデル] オプションは、抽出に使用される基盤となる LLM を表します。
- GPT-4o
- Gemini
最適なモデルを選ぶ
モデルによって、ユースケースごとのパフォーマンスは異なりますが、可能な場合は Gemini の使用をお勧めします。パフォーマンスとユーザー エクスペリエンスの最適化に役立つ他のいくつかの前処理および後処理機能も Gemini ベースです。
GPT-4o には 50 ページの制限があり、現在プレビューされている反復呼び出し機能を使用してのみ、それ以上のページを処理できます。
Gemini can process documents in IXP up to 500 pages in a single call, with higher page counts supported in preview. The Gemini limit may vary slightly based on the density of field values within the document. The Gemini model has an input limit of 500 pages by default, compared to the 50-page input limit of GPT-4o. Moreover, Gemini has a higher output context window, which allows it to handle more field values.
あるモデルから別のモデルに切り替える
あるモデルから別のモデルに切り替えるには、[抽出モデル] オプションのドロップダウン リストを使用して [保存] を選択します。これにより、新しいプロジェクト バージョンが作成され、新しい予測が自動的に生成されます。
パフォーマンス上の理由からモデルを切り替える必要がある場合は、まず、現在のモデルでは解決できない主要な問題を代替モデルで解決できるかどうかを確認します。解決できる場合は、新しいモデルを最適化して、[評価] でパフォーマンス メトリックを改善します。
詳細オプションでは、モデルの設定をカスタマイズしたり、使用する属性付け方法を選択したり、プロンプトの上書きを使用したりできます。
設定を展開すると、利用可能なすべてのオプションが表示されます。
- 属性付け - 予測をドキュメント内の関連する部分またはテキストに属性付けするために使用する方法です。以下のいずれかのオプションを選択します。
- ルールベース - 広範なルールとヒューリスティックのセットを使用して、ページ上の正しい範囲をモデルからの予測値に一致させます。これは低レイテンシのオプションですが、モデルベースのオプションと比較して、属性付けの成功という点ではパフォーマンスを犠牲にします。
- モデルベース - 追加の LLM 呼び出しを使用して、予測値をページ上の正しい範囲に正常に一致させます。多くの場合、これらの値はページのさまざまな部分で繰り返される可能性があるためです。これは、属性付けの成功という点では最もパフォーマンスの高いオプションですが、予測に多少のレイテンシが加わります。このオプションは、Gemini モデルの使用に依存します。
- 温度 - 使用するサンプリング温度です。0.0 から 2.0 の間の数値を選択します。値が大きいほど、出力はランダムになります。
- 上位 P - 確率質量が
top_pの値のトークンからのみサンプリングします。0.0 から 1.0 までの数値を選択します。 - シード - 指定すると、同じシードとパラメーターで要求を繰り返し実行した場合に、同じ結果が返されます。
- 頻度ペナルティ - -2.0 から 2.0 の数値を選択します。正の値を指定すると、すでにテキスト内に出現したトークンがモデルによって繰り返される確率が低くなります。
- プロンプトの上書き - 既定のシステム プロンプトを新しい値で上書きします。このオプションは既定では無効化されています。有効化すると、[タスクの指示のプロンプトを追加] オプションと [フィールドの指示のプロンプトを追加] オプションが有効化されて設定できるようになります。