Document Understanding モダンプロジェクトユーザーガイド

デリバリー:

最終更新日時 2025年4月17日

Measure

[評価] セクションでは、プロジェクトの全体的なステータスを確認し、改善の余地がある領域を確認できます。

このページの主な測定値は、プロジェクトの総合的なスコアです。

この測定値は、すべてのドキュメントの種類の分類器と抽出器のスコアを考慮して算出されています。各要因のスコアはモデルの評価に対応しており、「分類の評価」と「抽出の評価」でそれぞれ確認できます。

モデルの評価は、分類モデルのパフォーマンスを視覚化するのに役立つ機能です。評価は、次のように 0 から 100 までのモデルのスコアとして表されます。

モデルのスコアに関係なく、トレーニングを停止するタイミングはプロジェクトのニーズに応じてユーザーが決定します。モデルが「優秀」と評価されていても、すべてのビジネス要件を満たすとは限りません。

分類スコアでは、モデルのパフォーマンスに加えてデータセットのサイズと品質も考慮されます。

注: 分類スコアは、ドキュメントの種類が 2 つ以上作成されている場合にのみ利用可能です。

[分類] をクリックすると、右側に 2 つのタブが表示されます。

要因: モデルのパフォーマンスを向上させるための推奨事項が表示されます。ドキュメントの種類ごとに、データセットのサイズやトレーニング済みのモデルのパフォーマンスに関する推奨事項を確認できます。
メトリック: トレーニングドキュメントとテストドキュメントの数、適合率、精度、再現率、ドキュメントの種類ごとの F1 スコアなど、役立つメトリックを提供します。

抽出スコアでは、モデルの全体的なパフォーマンスに加えてデータセットのサイズと品質も考慮されます。このビューは各ドキュメントの種類に分割されます。[アノテーションを行う] をクリックして、各ドキュメントの種類の [アノテーションを行う] ビューに直接移動することもできます。

[抽出] ビューから利用可能なドキュメントの種類をクリックすると、右側に以下の 3 つのタブが表示されます。

要因: モデルのパフォーマンスを向上させるための推奨事項が表示されます。選択したドキュメントの種類のデータセットのサイズ (アップロードされたドキュメントの数、アノテーション済みのドキュメントの数) またはトレーニング済みのモデルのパフォーマンス (フィールドの精度) に関する推奨事項を確認できます。
データセット: モデルのトレーニングに使用されるドキュメントに関する情報、インポートされたページの総数、およびラベル付けされたページの総数が表示されます。
メトリック: 選択したドキュメントの種類のフィールド名、トレーニングステータスの数、精度などの有用な情報とメトリックが表示されます。[高度なメトリックをダウンロード] ボタンを使用して、抽出モデルの高度なメトリックにアクセスすることもできます。この機能を使用すると、バッチごとの詳細なメトリックとモデルの結果を含む Excel ファイルをダウンロードできます。

[データセット] タブでは、モデルをトレーニングして適切な精度を得るために必要な手順に関するフィードバックや推奨事項が提供されるため、効果的なデータセットを構築できます。

管理バーに表示されるデータセットのステータスレベルには、以下の 3 種類があります。

赤 - ラベル付けされたトレーニングデータの追加が必要です。
オレンジ - ラベル付けされたトレーニングデータの追加が推奨されます。
薄い緑 - ラベル付けされたトレーニングデータは推奨事項を満たしています。
濃い緑 - ラベル付けされたトレーニングデータは推奨事項を満たしています。ただし、パフォーマンスの低いフィールドには、追加のデータが必要である可能性があります。

セッションでフィールドが作成されていない場合は、データセットのステータスレベルは灰色になります。