- 概要
- モデルの構築
- モデルの検証
- 概要
- モデルのパフォーマンスを評価する
- 検証の統計情報を収集する
- タクソノミーを反復する
- モデルのデプロイ
- モデルを使用する
- API
- よくある質問
非構造化ドキュメントと複雑なドキュメント ユーザー ガイド
モデルのパフォーマンスは、以下の場所で評価できます。
- [構築] タブ。プロジェクトの総合スコアと各ドキュメントのエラー率が表示されます。
- [測定] タブ。フィールド グループとフィールド レベルのパフォーマンスが表示されます。
[構築] でモデルのパフォーマンスを評価する
[構築] タブの [プロジェクト スコア] の下で総合評価を表示できます。
- 健全なモデルのプロジェクト スコアは「良好」または「優秀」であり、フィールドのパフォーマンス警告はありません。
- プロジェクト スコアは、すべてのフィールドの平均 F1 スコアに基づいて計算されます。
さらに、[構築] タブの [ドキュメント] セクションの [エラー率] 列に、各ドキュメントのエラー率が表示されます。
エラー率は、アノテーション済みのドキュメントでのみ使用できます。エラー率は、モデルが各ドキュメントに対して犯した間違いの数、つまりモデルの予測とユーザーのアノテーションとの差を示します。
[評価] でモデルのパフォーマンスを評価する
[評価] ページの更新内容はパブリック プレビューとして利用可能です。
[評価] ページでは、アノテーション済みのドキュメントをパブリッシュする前に、そのドキュメントでのモデルのパフォーマンスを評価できます。このページには以下が含まれます。
- 主要なパフォーマンス メトリックがフィールドおよびフィールド グループごとに表示される [フィールドのパフォーマンス] の表
- モデル バージョン間のパフォーマンスの違いを比較し、改善点や退化点を明確に示すためのサポート
- タクソノミー フィールドごとの、エラーの種類の分布の可視化
- カスタムのオフライン分析を行うためのデータ エクスポート機能
以下のセクションでは、[評価] の主要な要素を説明するとともに、モデルのパフォーマンスを分析する際にこれらの要素を効果的に使用する方法について解説します。
プロジェクトの概要
概要セクションでは、プロジェクト全体にわたる現在のモデル バージョンのパフォーマンスの概要を素早く確認できます。このセクションを使用して以下を行うことができます。
- 評価するモデル バージョンを選択する
- [プロジェクト スコア] と [ドキュメントの平均エラー率] を使用して、全体的なパフォーマンスを一目で確認する
- プロジェクトの全体的なパフォーマンスが、以前のバージョンと比較して上昇傾向であるか、下降傾向であるかを素早く特定する
プロジェクト スコア
[プロジェクト スコア] は、モデルの全体的なパフォーマンスの要約です。
有益である理由
- タクソノミー、指示、アノテーションを反復処理しながら、1 つの一貫した方法で全体的な進行状況を追跡できます。
- 特定のフィールドを詳しく分析する前に、モデルのバージョンが全般的に改善しているか、それとも退化しているかを素早く判断できます。
計算方法
- プロジェクト スコアは、タクソノミーに含まれるすべてのフィールドの F1 スコアの単純平均として計算されます。
- F1 スコアは、モデルのパフォーマンスの標準的な指標です。適合率と再現率 (つまり、この 2 つの調和平均) のバランスを評価します。
- おおまかに説明すると、次のようになります。
- 適合率の回答:モデルの予測値が正しかった頻度
- 再現率の回答: アノテーション済みのデータのうち、モデルが正常に見つけたデータの割合
プロジェクト スコアは平均値です。フィールド レベルの具体的な退化または制限は、[フィールドのパフォーマンス] の表で確認できます。
ドキュメントの平均エラー率
[ドキュメントの平均エラー率] は、プロジェクトに含まれる、アノテーション済みの各ドキュメントのエラー率の平均です。
有益である理由
ドキュメントの平均エラー率では、選択したモデル バージョンでドキュメントを処理する際にどの程度エラーが発生しやすいかを素早く把握できます。パブリッシュに向けた準備状況を評価するのに役立ちます。
計算方法
この値は、プロジェクトに含まれる、完全にアノテーション済みの各ドキュメントのエラー率の単純平均として計算されます。
[フィールドのパフォーマンス] の表
[フィールドのパフォーマンス] の表は、[評価] ページでモデルのパフォーマンスを分析するための主要な方法です。この表には、フィールドまたはフィールド グループごとに 1 つの行と、プロジェクトに含まれるアノテーション済みのドキュメント全体で計算されたパフォーマンス メトリックとエラー メトリックが表示されます。この表では、メトリックを計算する際に、アノテーション未実施のドキュメントと部分的にアノテーション済みのドキュメントは考慮されません。
この表は以下の質問に答えるのに役立ちます。
- モデルの全体的なパフォーマンスを制限しているのはどのフィールドか
- エラーは少数のフィールドに集中しているか、それとも広範囲に広がっているか
- モデルの最近の変更により、特定のフィールドが改善したか、それとも退化したか
[フィールドのパフォーマンス] の表には、モデルのパフォーマンスをさまざまな観点から分析するのに役立つメトリックのカテゴリが複数含まれています。各カテゴリから、モデルがフィールドやドキュメントでどのように動作するかについて、診断に役立つ具体的な質問への回答が得られます。
検証ステータスと部分的な結果 待ち時間を短縮するために、以下のように処理されます。
- [フィールドのパフォーマンス] のメトリックは、検証が最小限の完了しきい値に達すると表示されます。
- 警告は、検証がまだ進行中であり、表示される結果が変わる可能性があることを示します。
パフォーマンス メトリック
パフォーマンス メトリックの目的は、各フィールドまたはフィールド グループについて抽出の全体的な品質を評価することです。
各パフォーマンス メトリックの説明は次のとおりです。
- F1 スコア — 適合率と再現率の調和平均です。「F1 = 2 × (適合率 × 再現率) / (適合率 + 再現率)」で計算されます。F1 スコアの高い状態が維持されるのは、適合率と再現率が両方とも高い場合のみです。このため、F1 は実際に、値の誤りや見逃しを避けることに注意が必要な抽出タスクの全体的な品質を示す強力な指標になります。したがって、F1 はモデル バージョン間のフィールドのパフォーマンスの変化を分析する場合に最初に確認すべきメトリックとして役に立ちます。
- 適合率 — 予測値が正しい頻度を測定します。「適合率 = 真陽性 / (真陽性 + 偽陽性)」で計算されます。真陽性とは、アノテーション済みの値に一致する予測です。「存在しない」とアノテーション済みの値は除外されます。
- 再現率 — 値が存在する場合に、モデルがその値を見つけた頻度を測定します。「再現率 = 真陽性 / (真陽性 + 偽陰性)」で計算されます。偽陰性とは、モデルが予測しなかったアノテーション済みの値です。「存在しない」とアノテーション済みの値は除外されます。
- エラー率 — 「エラーの合計 / アノテーションの合計」で計算されます。エラーの数とアノテーションの数には、存在しないとしてマーク済みの値が含まれます。
- エラー率 (欠落を除く) — 「(エラーの合計 – 過剰な予測) / アノテーション済みの値」で計算されます。存在しないとしてマーク済みのアノテーション済みの値は除外されます。
予測とエラー
予測とエラーのメトリックの目的は、低パフォーマンスの原因になっているエラーの量と構成を把握することです。
各メトリックの説明は次のとおりです。
- エラーの合計 — すべてのエラー クラスにわたる、フィールドのエラーの合計数です。「エラーの合計 = 誤った予測 + 見逃した予測 + 過剰な予測」で計算されます。
- 予測の合計 — フィールドの予測値の合計数です。「予測の合計 = 正しい値 + 正しい欠落予測 + 誤った予測」で計算されます。
- 誤った予測 — 抽出された値がアノテーションと一致しない予測の数です。予測、および存在しないとしてマーク済みのアノテーション済みの値は除外されます。
- 過剰な予測 — モデルが抽出すべきではなかったか、対応するアノテーションまたは存在しないとしてマーク済みのアノテーションがなかった予測値の数です。
- 見逃した予測 — モデルが抽出に失敗した、アノテーション済みの値の数です。
- 正しい値 — アノテーションと完全に一致する予測値の数です。
- 正しい欠落予測 — 値が欠落していることをモデルが正しく予測したインスタンスの数です。
注釈
アノテーションのメトリックの目的は、各メトリックをサポートしているラベル付けされたデータの数と、パフォーマンス スコアの信頼性についてコンテキストを提供することです。
各メトリックの説明は次のとおりです。
- アノテーションの合計 — アノテーションの合計数です。存在しないとしてマーク済みの値が含まれます。「アノテーションの合計 = アノテーション済みの値 + 存在しないとしてマーク済みのアノテーション済みの値」で計算されます。
- アノテーション済みの値 — アノテーション済みのフィールド値の合計数です。存在しないとしてマーク済みの値は除外されます。
- 「存在しない」とアノテーション済み — フィールドが明示的に「存在しない」とラベル付けされた合計回数です。
ドキュメント レベルのメトリック
ドキュメント レベルのメトリックの目的は、エラーがどのように分布しているかを、予測だけでなくドキュメント全体にわたって把握することです。
各メトリックの説明は次のとおりです。
- エラーを含むドキュメント — フィールドに少なくとも 1 つのエラーがあるドキュメントの合計です。
- アノテーション済みのドキュメント — フィールドに少なくとも 1 つのアノテーション済みのフィールド値があるドキュメントの合計です。
- % のドキュメントにエラーあり — フィールドに対して少なくとも 1 つのエラーが含まれるアノテーション済みのドキュメントの割合です。「エラーを含むドキュメント / アノテーション済みのドキュメント」で計算されます。
シナリオ例
シナリオ 1: F1 が低い + 適合率は低いが再現率は中程度か高い
確認できる状況
F1 が低く、適合率も低く、再現率は中程度か高い。
一般的な意味
- モデルはフィールドの値を抽出していますが、見つかることを予期していた数よりも多くの値が予測されています。
- 一般的な根本原因は次のとおりです。
- フィールドの指示がおおまかすぎるか、あいまいすぎる。たとえば、フィールドの指示が「金額をキャプチャしてください」であるにもかかわらず、どの金額かが指定されていない。
- ドキュメントに類似する値が複数あり、互いに混同されている可能性がある (例: 小計と合計、出荷先と請求先)。
次のステップ
誤った予測と過剰な予測を比較し、誤った値が抽出されたことに関連する問題であるのか (誤った予測の数がゼロではない場合)、それともその値がまったく抽出されるべきではなかったのか (過剰な予測の数がゼロではない場合) を特定します。
あいまいさを取り除く要素 (ラベル、キーワード、形式の制約など) を使用してフィールドの指示を厳格化します。
シナリオ 2: 見逃した予測が多く (再現率が低い)、適合率は中程度か高い
確認できる状況
- 再現率は低く、適合率は中程度か高い (F1 は通常、低または中程度)。
- 見逃した予測が多く、ほとんどの場合は誤った予測や過剰な予測よりも多い。
一般的な意味
- 存在する値の抽出にモデルが失敗しています。
- 一般的な根本原因は次のとおりです。
- フィールドの指示が細かすぎる。つまり、例が過度に制約されているか、ラベルの要件が具体的すぎる。
- 値が複数の形式 (日付や ID など) で表示され、指示でそれらの別表現がカバーされていない。
次のステップ
- 「見逃した予測 + アノテーション済みの値」を使用して、これが再現率の問題であること、つまり値が存在するにもかかわらず見つからないことを確認します。アノテーション済みの値を調べて、フィールドに妥当な数のアノテーション済みのデータ ポイントがあることを確認します。また、見逃した予測を調べて、モデルが値を誤って予測しているのではなく値を見つけるのに苦労していることを確認します。
- 指示を拡大して、条件に合う別表現を含めます。代替ラベルや類義語、形式の複数のパターン、場所のヒント (「申請者の詳細の近く」「借り手のセクションの下」など) を含めます。
シナリオ 3: エラー率は高いが、エラーを含むドキュメントは少ない (エラーが少数のドキュメントに集中している)
確認できる状況
- エラー率が高いか、エラーの合計が多い。
- エラーを含むドキュメントは、アノテーション済みのドキュメントと比べて少ない。
- 1 つのフィールドに問題があるように見えても、失敗しているのはドキュメントの一部のサブセットだけであることが多い。
一般的な意味
- エラーは、フィールドの全体的な動作ではなく、外れ値のドキュメントによって引き起こされています。
- 一般的な根本原因は次のとおりです。
- 特定のドキュメントや形式の動作が他とは異なっている。
- 少数のドキュメントに OCR や品質の問題がある (ぼやけたスキャン、傾き、手書きのオーバーレイなど)。
- フィールドはほとんどのドキュメントに存在しているが、一部で通常とは異なる形式 (複数行と単一行など) になっている。
次のステップ
- エラーを含むドキュメントとアノテーション済みのドキュメント、および必要に応じて「% のドキュメントにエラーあり」を比較して、集中度を確認します。
- [構築] ページでドキュメントをエラー率で並べ替えます。エラー率が最も高いドキュメントを調べ、フィールドのパフォーマンスが特定のサブセットで低いかどうかを特定します。
シナリオ 4: アノテーションがほとんどないバージョン間でパフォーマンスが大きく変動する
確認できる状況
- モデル バージョン間で F1 またはエラー率に大きな違いがあるが (増加または減少)、アノテーション済みの値が少ないか、またはアノテーション済みのドキュメントが少ないか、あるいはその両方である。
一般的な意味
- サンプル サイズが小さいため、フィールドのメトリックがまだ安定していません。
- 一般的な根本原因は次のとおりです。
- 例が少なすぎる (1 個から 2 個のドキュメントでは率が大きく変わる可能性がある)。
- フィールドがほとんど存在していない。つまり、欠落しているケースが多く、実際の値がほとんどない。
- 少数の難解なドキュメントがメトリックに大きく影響している。
次のステップ
- アノテーション済みの値、アノテーション済みのドキュメント、および「存在しない」とアノテーション済みを調べて、カバレッジの低さを検証します。
- カバレッジが拡大するまで、メトリックは方向性を示すものとして捉え、確定的なものとして捉えないようにします。
- フィールド専用のラベル付けされたデータをさらに追加します。つまり、フィールドが存在するドキュメントに優先的に対応し、一連の多様なサンプルや別表現を含めます。
- バージョンの比較は、十分なカバレッジが確保されて可変性に起因するノイズが減った後にのみ使用します。
フィルター処理と並べ替えを行う
表の行をフィルター処理するには、利用可能なクイック フィルターを 1 つ以上選択します。
- アノテーション済みの値 < 10
- フィールドの F1 スコア < 50
- 次のフィールドの F1 スコア: 50–70
次の図は、[フィールドのパフォーマンス] の表にクイック フィルターを適用した前と後の結果の例を示しています。
[フィールドのパフォーマンス] の表は、表内の任意のメトリックで並べ替えることもできます。並べ替えを適用すると、値がそれぞれのフィールド グループ内で並べ替えられます。たとえば、表を F1 スコアで並べ替えると、各フィールド グループ内のフィールドがお互いに対して相対的に並べ替えられます。
表示の設定
既定では、[評価] にはパフォーマンス メトリック (F1 スコアやエラー率など) の違いが表示されます。
すべてのメトリックの違いを表示するには、以下の手順を実行します。
-
[次のスコアの差を表示: バージョン] トグルをオンにします。
-
[次のスコアの差を表示: バージョン] ドロップダウンを選択します。
-
[表示の設定] を選択します。
-
[バージョンの変更 - 表示の設定] ポップアップで、[すべてのメトリック] を選択します。利用可能なオプションは次のとおりです。
- パフォーマンス メトリックのみ — パフォーマンス メトリックは、モデルの予測をアノテーションと比較して決定されるメトリックです。F1 スコアやエラー率などがあります。
- すべてのメトリック
- モデルの可変性の変化を表示 — 既定では、現在のバージョンの可変性の範囲内に収まる変化は重大なものとは見なされず、表示されません。有効化すると、それらの変化が表示されます。選択すると、次のオプションが利用可能になります。
- すべての変化の色を表示 — 既定では、可変性の範囲内の変化は灰色で表示されます。有効化すると、すべての変更が緑または赤で表示されます。
-
[保存] を選択します。
モデルのバージョン
モデルのバージョンには、そのバージョンが作成された時点での、プロジェクトの現在のステートがキャプチャされます。モデルのバージョンをパブリッシュして保存し、オートメーションで使用できます。さらに、[評価] ページでバージョンにスターを付けて、パフォーマンス統計情報を保存することもできます。現在のパフォーマンスを以前のバージョンと比較して確認することで、指示を反復しながらパフォーマンスを継続的に向上させることができます。
モデルのバージョンを選択する
[バージョン] ドロップダウンを使用すると、特定のモデルのどの検証結果を [評価] ページ全体に表示するかを選択できます (フィールドのパフォーマンス、ドキュメントのパフォーマンス、関連するメトリックなど)。モデルのバージョンを切り替えると、ページ上のすべてのメトリックが更新され、選択したバージョンの検証結果が反映されます。
スコアの違いを使用して異なるモデル バージョンを比較する
複数のモデル バージョンが利用可能な場合、[評価] ページで現在のモデルを以前のバージョンに対して比較できます。これにより、フィールドの指示の変更、アノテーションの変更、またはモデルの設定の更新による影響をより詳しく把握できます。
動作の仕組み
- [評価] では、別のモデル バージョンとのスコアの違いを参照できます。
- プラスの変化またはマイナスの変化により、改善か退化かが強調されます。既定では、[評価] は、最も最近作成されたモデル バージョンを基準にして、以前のモデル バージョンと比較します。
別のモデル バージョンを比較するには、[次のスコアの差を表示: バージョン] ドロップダウンを使用して、利用可能なバージョンを選択します。
モデルの可変性とスコアの違いへの影響について
IXP の一部のモデルは非決定論的です。つまり、フィールドの指示が変更されていなくても、モデル バージョン間でフィールドの一連の予測がわずかに変化する可能性があります。
[評価] ページでは、パフォーマンスの分析時にモデルの可変性を考慮できます。これは以下に役立ちます。
- パフォーマンスの変化に意味があるかどうかを理解する
- メトリックの小さな変動を過大解釈しないようにする
既定では、以下のように管理されます。
- 2 つのモデル バージョンを比較する場合、メトリックの可変性の範囲内に収まるスコアの違いは表示されません。
- スコアの違いをすべて表示するか、メトリックの可変性以上の違いのみを表示するかを選択できます。
これらの既定値により、ノイズではなくモデルのパフォーマンスの大幅な変化に注意を集中できます。
モデルの可変性に関係なくモデル バージョン間の違いを表示するには、以下の手順を実行します。
- [次のスコアの差を表示: バージョン] トグルをオンにします。
- [次のスコアの差を表示: バージョン] ドロップダウンを選択します。
- [表示の設定] を選択します。
- ポップアップ ウィンドウで、[モデルの可変性の変化を表示] を選択します。利用可能なオプションは次のとおりです。
- パフォーマンス メトリックのみ — パフォーマンス メトリックは、モデルの予測をアノテーションと比較して決定されるメトリックです。F1 スコアやエラー率などがあります。
- すべてのメトリック
- モデルの可変性の変化を表示 — 既定では、現在のバージョンの可変性の範囲内に収まる変化は重大なものとは見なされず、表示されません。有効化すると、それらの変化が表示されます。選択すると、次のオプションが利用可能になります。
- すべての変化の色を表示 — 既定では、可変性の範囲内の変化は灰色で表示されます。有効化すると、すべての変更が緑または赤で表示されます。
- スコアのすべての違いを緑または赤で表示する場合は、必要に応じて、[すべての変化の色を表示] を選択します。既定では、可変性の範囲内の違いは灰色で表示されます。
- [保存] を選択します。
モデル バージョンにスターを付ける
タクソノミー (指示を含む) またはモデルの設定を変更するたびに、新しいモデル バージョンが作成されます。モデルの最新バージョンはいつでも利用できますが、モデルの特定のバージョンにスターを付けて (固定し)、そのパフォーマンス統計情報を常にダッシュボードに表示することもできます。
モデル バージョンにスターを付けるには、以下の手順に従います。
- [モデルのバージョン] ドロップダウン メニューを展開して、利用可能なすべてのバージョンのリストを表示します。
- 常にリストの先頭とダッシュボードに表示するモデル バージョンの横にある星型のアイコンを選択します。
モデル バージョンにスターを付けても、モデル バージョン自体は保存されず、パフォーマンス統計情報のみが保存されます。モデル バージョンを保存するには、[ パブリッシュ] タブでパブリッシュする必要があります。
評価データをエクスポートする
[評価] ページからデータをエクスポートして以下の目的で使用できます。
- オフライン分析
- カスタム フィルター処理
- 利害関係者との結果の共有
エクスポートには、[評価] ページに表示されるフィールド レベルの予測、アノテーション、パフォーマンス メトリックが含まれます。
データをエクスポートするには、以下の手順を実行します。
- [評価] ページに移動します。
- 縦三点リーダー ボタンを選択します。
- [Excel ファイルとしてエクスポート] を選択します。