- 概要
- モデルの構築
- モデルの検証
- 概要
- モデルのパフォーマンスを評価する
- 検証の統計情報を収集する
- タクソノミーを反復する
- モデルのデプロイ
- API
- よくある質問

非構造化ドキュメントと複雑なドキュメント ユーザー ガイド
モデルのパフォーマンスを評価する
モデルのパフォーマンスは、以下の場所で評価できます。
- [構築] タブ。プロジェクトの総合スコアと各ドキュメントのエラー率が表示されます。
- [測定] タブ。フィールド グループとフィールド レベルのパフォーマンスが表示されます。
[構築] でモデルのパフォーマンスを評価する
[構築] タブの [プロジェクト スコア] の下で総合評価を表示できます。
- 健全なモデルのプロジェクト スコアは「良好」または「優秀」であり、フィールドのパフォーマンス警告はありません。
- プロジェクト スコアは、すべてのフィールドの平均 F1 スコアに基づいて計算されます。

さらに、[構築] タブの [ドキュメント] セクションの [エラー率] 列に、各ドキュメントのエラー率が表示されます。
エラー率は、アノテーション済みのドキュメントでのみ使用できます。エラー率は、モデルが各ドキュメントに対して犯した間違いの数、つまりモデルの予測とユーザーのアノテーションとの差を示します。
![この画像は [構築] タブを示しており、ドキュメントの [エラー率] 列が強調表示されています。](https://dev-assets.cms.uipath.com/assets/images/ixp/ixp-this-image-depicts-the-build-tab-highlighting-the-error-rate-column-for-documents-588010-78caaf76.webp)
[評価] でモデルのパフォーマンスを評価する
The Measure page updates are available in public preview.
[ 評価 ] ページでは、アノテーション済みのドキュメントをパブリッシュする前に、そのドキュメントに対するモデルのパフォーマンスを評価できます。このページには以下が含まれます。
- フィールドおよびフィールド グループごとの主要なパフォーマンス メトリックを表示するフィールドのパフォーマンス テーブル。
- モデル バージョン間のパフォーマンスの違いを比較し、改善点や回帰点を強調するためのサポート
- 各タクソノミー フィールドのエラーの種類の分布の表示。
- カスタム オフライン分析のためのデータ エクスポート機能。
以下のセクションでは、Measure の主要なコンポーネントについて説明し、モデルのパフォーマンスを分析する際にこれらのコンポーネントを効果的に使用する方法について説明します。
プロジェクト概要
概要セクションには、現在のモデル バージョンがプロジェクト全体でどのように実行されるかを素早く概要で確認できます。これを使用して、次のことができます。
- 評価するモデル バージョンを選択します。
- プロジェクトのスコアとAvg. docエラー率を使用して、全体的なパフォーマンスを一目で確認できます。
- 以前のバージョンと比較して、プロジェクト全体のパフォーマンスが上昇傾向にあるか下降傾向にあるかをすばやく特定します。

プロジェクト スコア
プロジェクト スコアは、モデルの全体的なパフォーマンスをまとめたものです。
なぜそれが役立つのか
- タクソノミー、指示、注釈の反復処理を行う際に、全体的な進行状況を追跡するための単一の一貫した方法を提供します。
- 特定のフィールドを調べる前に、モデルのバージョンが全般的に改善しているか後退しているかをすばやく判断できます。
計算方法
- プロジェクト スコアは、タクソノミー内のすべてのフィールドの F1 スコアの単純平均として計算されます。
- F1 スコアは、適合率と再現率、つまりこの 2 つの調和平均のバランスをとる標準的なモデルのパフォーマンス メトリックです。
- 大まかに言うと:
- 適合率 の回答: モデルの予測値が正しい頻度はどれくらいでしたか?
- 再現率 の回答: アノテーション済みのデータのうち、モデルで正常に検出できたデータの量
プロジェクトのスコアは平均値です。特定のフィールド レベルの回帰または制限は、「フィールドのパフォーマンス」の表で確認できます。
ドキュメントの平均エラー率
Avg. docエラー率は、プロジェクト内のアノテーション済みの各ドキュメントのエラー率の平均です。
なぜそれが役立つのか
Avg. docエラー率は、選択したモデル バージョンで処理する際に、ドキュメントがどの程度エラーが発生しやすいかを簡単に示し、パブリッシュの準備状況を評価するのに役立ちます。
計算方法
この値は、プロジェクト内の完全にアノテーションされた各ドキュメントのエラー率の単純平均として計算されます。
フィールドのパフォーマンス テーブル
[フィールドのパフォーマンス] テーブルは、[評価] ページでモデルのパフォーマンスを分析する主な方法です。フィールドまたはフィールド グループごとに 1 つの行が、プロジェクト内のアノテーション済みのドキュメント全体で計算されたパフォーマンス メトリックとエラー メトリックとともに表示されます。この表では、メトリックを計算する際に、アノテーション未実施のドキュメントと部分的にアノテーション済みのドキュメントは考慮されません。

この表は、次のような質問に答えるのに役立ちます。
- モデルの全体的なパフォーマンスを制限するフィールドはどれか?
- エラーは少数の分野に集中していますか、それとも広く広がっていますか?
- 最近のモデル変更により、特定のフィールドが改善または低下しましたか?
フィールドのパフォーマンスの表には、さまざまな観点からモデルのパフォーマンスを分析するのに役立つメトリックのカテゴリがいくつか含まれています。各カテゴリは、フィールドやドキュメント間でモデルがどのように動作するかに関する特定の診断の質問に回答します。
検証ステータスと部分的な結果 待ち時間を短縮するには:
- フィールドのパフォーマンス メトリックは、検証が最小完了しきい値に達すると表示されます。
- 警告は、検証がまだ進行中であり、表示される結果が変更される可能性があることを示します。
Performance metrics
パフォーマンス メトリックの目的は、各フィールドまたはフィールド グループの抽出の全体的な品質を評価することです。
パフォーマンス メトリックについては、次のように説明します。
- F1 スコア — 適合率と再現率の調和平均: F1 = 2 × (適合率 × 再現率) / (適合率 + 再現率)。F1 スコアが高いままになるのは、適合率と再現率の両方が高い場合のみです。実際には、このため F1 は、誤った値や欠落した値を避けることに注意が必要な抽出タスクの全体的な強力な品質指標になります。したがって、F1 は、モデル バージョン間のフィールドのパフォーマンスの変化を分析するために確認すべき最初のメトリックとして有用です。
- 適合率 — 予測値が正しい頻度を測定します。適合率 = 真陽性 / (真陽性 + 偽陽性)。真陽性とは、アノテーションが行われた値と一致する予測です。欠落としてアノテーションが行われた値は除外されます。
- 再現率 : 値が存在する場合に、モデルがそれを見つける頻度を測定します。再現率 = 真陽性 / (真陽性 + 偽陰性)。偽陰性とは、モデルが予測しなかったアノテーション済みの値であり、存在しないとアノテーションされた値は除外されます。
- エラー率 — 総エラー数 / 総アノテーション数。存在しないとマークされた値は、エラーとアノテーションの数に含まれます。
- エラー率 (欠損値を除く) — (合計エラー数 – 追加の予測) / アノテーション済みの値存在しないとしてマークされたアノテーション済みの値は除外されます。
予測とエラー
予測とエラーのメトリックの目的は、パフォーマンスの低下の原因となっているエラーの量と構成を理解することです。
メトリックは次のように説明されます。
- 合計エラー 数 — すべてのエラー クラスにわたるフィールドのエラーの合計数: 合計エラー = 誤った予測 + 見逃された予測 + 追加の予測。
- 予測の合計数 — フィールドの予測値の合計数: 予測の合計数 = 正しい値 + 欠落の修正 + 誤った予測。
- 不正確な予測 — 抽出された値がアノテーションと一致しない予測の数です。予測と、存在しないとしてマークされたアノテーション済みの値は除外されます。
- 追加の予測 — モデルが抽出すべきではなかった予測値、または対応するアノテーションまたは存在しないとしてマークされたアノテーションがなかった予測値の数。
- 見逃された予測 — モデルが抽出に失敗した、アノテーション済みの値の数です。
- 正しい値 : アノテーションと完全に一致する予測値の数。
- 欠損値を修正 : 値が欠損していることをモデルが正しく予測した例の数。
注釈
アノテーション メトリックの目的は、各メトリックをサポートするラベル付きデータと、パフォーマンス スコアの信頼性のコンテキストを提供することです。
メトリックは次のように説明されます。
- 総アノテーション数 — 欠落としてマークされた値を含む、アノテーションの合計数: 総アノテーション数 = アノテーション済みの値 + 欠落としてマークされたアノテーション済みの値。
- アノテーション済みの値 — アノテーション済みのフィールド値の合計数です。欠落としてマークされた値は含まれません。
- 存在しないとしてアノテーション済み — フィールドに明示的に存在しないとラベル付けされた合計回数です。
ドキュメント レベルのメトリック
ドキュメント レベルのメトリックの目的は、エラーが予測全体だけでなくドキュメント間でどのように分布しているかを理解することです。
メトリックは次のように説明されます。
- エラーのあるドキュメント — フィールドに少なくとも 1 つのエラーがあるドキュメントの総数。
- アノテーション済みのドキュメント — フィールドにアノテーション済みのフィールド値が 1 つ以上あるドキュメントの総数です。
- エラーのあるドキュメントの割合 — フィールドのエラーが少なくとも 1 つ含まれるアノテーション済みのドキュメントの割合です: [エラーのあるドキュメント]/[アノテーション済みのドキュメント]。
シナリオ例
シナリオ 1: F1 が低い + 適合率が低いが、再現率は中または高い
観察内容
F1 は低、適合率は低く、再現率は中または高です。
通常の意味
- モデルはフィールドの値を抽出していますが、予測された値が予想数よりも多く見つかりました。
- 一般的な根本原因:
- フィールド指導が広すぎるか、あいまいです。たとえば、フィールド指示は [金額をキャプチャ] ですが、どの金額かは指定されていません。
- ドキュメントに類似した値があり、互いに混同される可能性があります (たとえば、小計と合計、出荷先と請求先)。
次のタスク
誤った予測と追加の予測を比較して、問題が間違った値の抽出に関連付けられているか (間違った予測数がゼロ以外)、値がまったく抽出されるべきではなかったか (余分な予測数がゼロ以外) を特定します。
フィールドへの指示は、ラベル、キーワード、書式の制約などの曖昧さ回避機能で厳格にします。
シナリオ 2: 見逃された予測が多い (再現率が低い)、適合率が「中」または「高」
観察内容
- 再現率は低く、適合率は中または高です (F1 は通常、低または中程度です)。
- 見逃された予測は高く、多くの場合、不正確または余計な予測よりも多くなります。
通常の意味
- 存在する値をモデルが抽出に失敗しています。
- 一般的な根本原因:
- フィールド指示が狭すぎる。つまり、例が過度に制約されていたり、ラベル要件が具体的すぎたりします。
- 値は日付や ID などの複数の形式で表示され、指示ではバリアントをカバーしていません。
次のタスク
- [見逃された予測 + アノテーション済みの値] を使用して、これが再現率の問題であること、つまり、値は存在するが見つからないことを確認します。[アノテーション済みの値] をチェックして、フィールドにアノテーション済みのデータ ポイントが妥当な数あることを確認し、[見逃された予測] をチェックして、モデルが値を見つけるのに苦労しているのではなく、値を誤って予測していることを確認します。
- 指示を展開して、許容されるバリアント (代替ラベルまたは類義語、複数の書式設定パターン、場所のヒント ( 申請者の詳細の近く 、 借り手のセクションの下など) など) を含めます。
シナリオ 3: エラー率は高いがエラーのあるドキュメント (エラーが少数のドキュメントに集中している)
観察内容
- エラー率が高いか、合計エラー数が多い。
- エラーのあるドキュメントは、アノテーション済みのドキュメントに比べて低いです。
- 多くの場合、1 つのフィールドの外観が悪くても、ドキュメントのごく一部でしか失敗しません。
通常の意味
- エラーは、体系的なフィールドの動作ではなく、外れ値のドキュメントによって引き起こされます。
- 一般的な根本原因:
- 特定のドキュメントまたは形式は、他のドキュメントまたは形式とは異なる動作をします。
- OCR や、少数のドキュメントの品質の問題 (ぼやけたスキャン、傾き、手書きのオーバーレイなど)
- このフィールドはほとんどのドキュメントに存在しますが、複数行と単一行など、ごく一部で通常とは異なる形式になっています。
次のタスク
- エラーのあるドキュメントとアノテーション済みのドキュメントを比較し、オプションでエラーのあるドキュメントの割合を比較して、集中度を確認します。
- [ 構築 ] ページでドキュメントをエラー率で並べ替え、エラー率が最も高いドキュメントを検査して、フィールドのパフォーマンスが特定のサブセットで低いかどうかを特定します。
シナリオ 4: アノテーションがほとんどないバージョン間でパフォーマンスが大きく変動する
観察内容
- F1 の値やモデルのバージョン間のエラー率の差が大きい (アップまたはダウン) が、アノテーション済みの値が低いか、ドキュメントのアノテーション済みが低いか、またはその両方である。
通常の意味
- サンプル サイズが小さいため、フィールド メトリックはまだ安定していません。
- 一般的な根本原因:
- 例が少なすぎる — 1 〜 2 個のドキュメントで速度が大幅に変わる可能性があります。
- フィールドはほとんど存在しません。つまり、欠損ケースが多く、真の値がほとんどありません。
- 一握りの難しい文書が指標を支配しています。
次のタスク
- カバレッジが低いを検証するには、[アノテーション済みの値]、[アノテーション済みのドキュメント]、および [存在しないとしてアノテーション済み] を確認します。
- カバレッジが拡大するまで、メトリックは確定的ではなく方向性のあるものとして扱います。
- そのフィールド専用のラベル付けされたデータをさらに追加します。つまり、フィールドが存在するドキュメントを優先し、多様なサンプルやバリアントのセットを含めます。
- バージョン比較は、ばらつきによるノイズを減らすのに十分なカバレッジの後にのみ使用してください。
フィルター処理と並べ替え
表の行をフィルター処理するには、利用可能なクイック フィルターを 1 つ以上選択します。
- アノテーション済みの値 <10
- フィールド F1 スコア < 50
- フィールド F1 スコアが 50 から 70 の範囲内にある
The following images depict an example of the Field performance table results before and after you apply a quick filter:

You can also sort the Field performance table by any metric in the table. When a sort is applied, values are sorted within their respective field group. For example, sorting the table by F1 score sorts the fields within each field group relative to one another:

表示の設定
既定では、 Measure にはパフォーマンス メトリック (F1 スコアやエラー率など) の違いが表示されます。
すべてのメトリックの差異を表示するには以下の手順に従います。
-
[ Show differences in scores from: Version] トグルをオンにします。
-
[ 次のスコアの差分を表示: バージョン ] ドロップダウンを選択します。

-
[ 表示設定] を選択します。
-
[バージョンの変更 - 表示設定] ポップアップで、[すべてのメトリック] を選択します。利用可能なオプションは次のとおりです。
- パフォーマンス メトリックのみ — パフォーマンス メトリックは、F1 スコアやエラー率などの注釈と比較されるモデルの予測によって決まります。
- すべてのメトリック
- モデルの変動性の内部で変更を表示 - デフォルトでは、現在のバージョンの変動性範囲内の変化は有意とは見なされず、非表示になります。有効にすると、それらが表示されます。選択すると、次のオプションが利用可能になります。
- すべての変更の色を表示 - デフォルトでは、変動範囲内の変化は灰色で表示されます。すべての変更を緑または赤に色付けできます。
-
[保存] を選択します。
モデルのバージョン
モデルのバージョンでは、バージョンが作成された時点のプロジェクトの現在のステートがキャプチャされます。モデル バージョンをパブリッシュして保存し、オートメーションで使用できます。さらに、[ 測定 ] ページでバージョンにスターを付けて、パフォーマンス統計情報を保存することもできます。現在のパフォーマンスを以前のバージョンと比較することで、指示の反復処理中にパフォーマンスを継続的に向上させることができます。
モデル バージョンを選択する
[ バージョン ] ドロップダウンを使用して、[ 評価 ] ページ全体に表示する特定のモデル バージョンの検証結果 ( フィールドのパフォーマンス、 ドキュメントのパフォーマンス、関連するメトリックなど) を選択します。モデルのバージョンを切り替えると、ページ上のすべてのメトリックが更新され、選択したバージョンの検証結果が反映されます。

スコアの差分を使用して異なるモデル バージョンを比較する
複数のモデル バージョンを使用できる場合は、[ 評価 ] ページで現在のモデルを以前のバージョンと比較できます。これにより、フィールドの指示の変更、アノテーションの変更、モデル構成の更新による影響をより詳しく把握できます。
動作の仕組み
- [評価] では、別のモデル バージョンとのスコアの差を表示できます。
- 肯定的または否定的な変化は、改善または回帰を強調表示します。既定では、Measure は、以前に作成されたモデル バージョンを基準にして、以前のモデル バージョンと比較します。
別のモデル バージョンを比較するには、[バージョン] ドロップダウン の [スコアの差分を表示 ] を使用して、利用可能なバージョンを選択します。

モデルの変動性とスコアの差への影響について
IXP の一部のモデルは非決定論的です。つまり、フィールドの命令が変更されていない場合でも、モデル バージョン間でフィールドの予測のセットがわずかに異なる可能性があります。
[評価] ページでは、パフォーマンス分析時にモデルの変動性を考慮できます。これは、次のことに役立ちます。
- パフォーマンスの変化に意味があるかどうかを理解する。
- メトリックの小さな変動を過度に解釈することは避けてください。
既定では、以下のように管理されます。
- 2 つのモデル バージョンを比較する場合、メトリックの変動範囲内にあるスコアの差は非表示になります。
- スコアのすべての差を表示するか、メトリックの変動性以上の差のみを表示するかを選択できます。
これらの既定値により、ノイズではなく、モデルのパフォーマンスの大幅な変更に注意が集中されます。
モデルの可変性に関係なくモデル バージョン間の違いを表示するには、次の手順に従います。
- [ Show differences in scores from: Version] トグルをオンにします。
- [ 次のスコアの差分を表示: バージョン ] ドロップダウンを選択します。
- [ 表示設定] を選択します。
- ポップアップ ウィンドウで、[ モデルの変動性の内部で変更を表示] を選択します。利用可能なオプションは次のとおりです。
- パフォーマンス メトリックのみ — パフォーマンス メトリックは、F1 スコアやエラー率などの注釈と比較されるモデルの予測によって決まります。
- すべてのメトリック
- モデルの変動性の内部で変更を表示 - デフォルトでは、現在のバージョンの変動性範囲内の変化は有意とは見なされず、非表示になります。有効にすると、それらが表示されます。選択すると、次のオプションが利用可能になります。
- すべての変更の色を表示 - デフォルトでは、変動範囲内の変化は灰色で表示されます。すべての変更を緑または赤に色付けできます。
- すべてのスコアの差を緑または赤で表示する場合は、必要に応じて、[ すべての差に色を表示 ] を選択します。既定では、変動範囲内の差は灰色で表示されます。
- [保存] を選択します。
モデル バージョンにスターを付ける
タクソノミー (指示を含む) またはモデル設定を変更するたびに、新しいモデル バージョンが作成されます。モデルの最新バージョンはいつでも使用できますが、特定のモデル バージョンにスターを付けて所定の位置にロックし、ダッシュボードにパフォーマンス統計情報を常に表示することもできます。
モデル バージョンにスターを付けるには、以下の手順に従います。
- [モデルのバージョン] ドロップダウン メニューを展開して、利用可能なすべてのバージョンのリストを表示します。
- 常にリストの先頭とダッシュボードに表示するモデル バージョンの横にある星型のアイコンを選択します。
モデル バージョンにスターを付けても、モデル バージョン自体は保存されず、パフォーマンス統計情報のみが保存されます。モデル バージョンを保存するには、[ パブリッシュ] タブでパブリッシュする必要があります。

メジャー データをエクスポートする
以下の場合に [測定] ページからデータをエクスポートできます。
- オフライン分析。
- カスタム フィルター処理。
- 利害関係者と結果を共有する。
エクスポートには、[ 測定 ] ページに表示されるフィールド レベルの予測、アノテーション、パフォーマンス メトリックが含まれます。
データをエクスポートするには、次の手順に従います。
- [ 評価 ] ページに移動します。
- 縦三点リーダー ボタンを選択します。
- [ Excel ファイルとしてエクスポート] を選択します。
