Document Understanding ガイド

デリバリー:

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

最終更新日時 2025年3月5日

データセット診断

新しいモデルをゼロからトレーニングするのは、ときに非常に手間のかかる作業です。

データセット診断機能では、モデルをトレーニングして適切な精度を得るために必要な手順に関するフィードバックやヒントが提供されるため、効果的なデータセットを構築できます。

データセット診断ツールは Document Manager の管理バーにあり、新しいモデルのトレーニングプロセス全体を通して視覚的かつ文字によるガイダンスを提供します。

管理バーに表示されるデータセットのステータスレベルには、以下の 3 種類があります。

赤 - ラベル付けされたトレーニングデータの追加が必要です。
オレンジ - ラベル付けされたトレーニングデータの追加が推奨されます。
緑 - ラベル付けされたトレーニングデータが必要量に達しています。

セッションでフィールドが作成されていない場合は、データセットのステータスレベルは灰色になります。

各ステータスの詳細は、データセット診断のポップアップメニューで確認できます。[データセット診断] ボタンをクリックして開きます。

データセット診断のメニュー

データセットタブ

モデルのトレーニングに使用されるドキュメントに関する情報、インポートされたページの総数、およびラベル付けされたページの総数が表示されます。

色分けされたステータスバーの区切りは、モデルのトレーニングに必要なラベル付けされたページの推奨数と、データセット (ラベル付けされたデータとラベル付けされていないデータを含む) の実際のステータスによって決定されます。ステータスバーの色の上でホバーすると、各ステータスに関する追加情報がツールチップに表示されます。

[データセット] タブの数値はトレーニングセッションの標準フィールドと項目フィールドの数に基づいて計算されます。

赤 - モデルをトレーニングするには、ラベル付けされたデータをデータセットに追加する必要があります。
オレンジ - トレーニングするモデルの精度を向上するには、ラベル付けされたデータの追加が推奨されます。現状のデータのまま続行することもできますが、精度のレベルは期待されるほど高くありません。
緑 - データセットには、適切なトレーニングを行い正確な情報を抽出するのに十分な量のラベル付けされたデータがあります。

フィールドタブ

ラベル付けされた各フィールドに関する情報が表示されます。具体的には、ラベルのタグ付けが済んでいるトレーニングページの総数、ラベル付けされたフィールドがある、評価されたドキュメントの総数、および現在のトレーニングセットのステータスを確認できます。

フィールド - ラベル付けされたフィールドの名前です。
トレーニングページ - このフィールドがラベル付けされている、トレーニングセットと検証セットのページ数です。
評価ドキュメント - このフィールドがラベル付けされている、評価セットに含まれるドキュメントの数です。
ステータス - 各フィールドのステータスです。赤、オレンジ、緑の 3 つのオプションでマークされます。

[ステータス] バーのオプションは次のとおりです。

赤 - フィールドに関するデータが不足しており、追加のラベル付けが必要です。
オレンジ - 結果の関連性を高めるには、追加のページをラベル付けする必要があります。
緑色 - 結果の関連性を高めるのに十分な数のラベル付けされたページがあります。

[更新] と [閉じる] ボタンは両方のタブに適用されます。つまり、[データセット] タブで [更新] ボタンをクリックすると、[フィールド] タブも更新されます。

更新 - データセットの合計ページ数またはラベル付きページ数を変更した後に情報を更新するにはこのオプションを使用します。このポップアップメニューは、数分ごとに両方のタブが同時に自動的に更新されます。この機能は自動更新のタイミング以外で更新する場合に使用します。
閉じる - 必要な情報の収集が完了したら、[閉じる] ボタンをクリックしてメニューを閉じます。どのタブでクリックしても、ポップアップメニュー全体が閉じます。

[計算機能] タブ

[計算機能] タブは、新しいドキュメントの種類の作成時に追加した情報と同じ情報を指定します。

データセットの計算機能を使用して、ドキュメントの種類の作成時に最初に追加した情報の一部を変更できます。

データセットの計算機能では、以下のフィールドを変更できます。

すぐに使えるドキュメントの種類
言語の数
レイアウトの数

[計算機能] タブの以下のフィールドは読み取り専用です。これらの値は、使用されているすぐに使えるドキュメントの種類と現在のスキーマフィールドの共通部分を求めることで決定されます。

すぐに使える標準フィールド
すぐに使える列フィールド
すぐに使える分類フィールド

前述のフィールドのいずれかを変更すると、データセットの推奨サイズに影響します。現在開いているポップアップの [データセット] タブが更新され、新しい推奨サイズに基づいて緑/黄/赤のステータスに変わります。変更を保存すると、全体的なデータセット診断インジケーターで新しい [データセット] タブの健全性が考慮されます。

たとえば、ドキュメントの種類を最初に作成したときに、[すぐに使えるドキュメントの種類] フィールドで [請求書] を選択したとします。最初に選択した種類を他の種類 ([領収書] など) に変更すると、両方のドキュメントの種類の情報がデータセットに融合され、選択した両方の種類 (請求書と領収書) に共通する情報が表示されます。

一方のモデルにのみ存在するフィールドがある場合、そのフィールドは [カスタムの標準フィールド] または [カスタムの列フィールド] に表示されます。この変更は標準フィールドと分類フィールドの両方に適用されるためです。