Document Understanding ガイド

デリバリー:

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

最終更新日時 2024年12月12日

パイプラインについて

Document Understanding^TM ML パッケージは、以下の 3 種類のパイプラインすべてを実行できます。

パイプライン実行が完了すると、それに関連付けられた出力とログが得られます。この情報を確認するには、左側のサイドバーにある [パイプライン] タブでパイプラインをクリックし、パイプラインビューを開きます。このビューに含まれる項目は以下のとおりです。

パイプラインの詳細: 種類、ML パッケージの名前とバージョン、データセット、GPU の使用状況、パラメーター、実行時間などが表示されます。
[出力] ペイン: パイプラインの詳細を要約した _results.json ファイルが必ず含まれます。
[ログ] ページ: 左側のサイドバーにある [ML ログ] タブでもログを取得できます。

すべてのパイプラインは、次の 3 つの異なるファイルでスコアを返します。

evaluation_scores_<package name>.txt - このファイルには、すべてのフィールドの精度スコアが含まれます。
evaluation_<package name>.xlsx - このファイルには、フィールドおよびバッチごとの詳細な精度の内訳と、横並びに表示された各フィールドの比較情報が含まれます。見逃したフィールド (赤) または部分的に一致したフィールド (黄色) が色で強調表示されます。
evaluation_F1_scores.txt - このファイルには、すべてのフィールドの F1 スコアが含まれます。

精度の値は、一致数を予測総数で割ることで得られます。一致した場合は重み 1 が付加され、部分一致の場合は、予測と真の値の間のレーベンシュタイン距離に対応する重みが付加されます。

注:

レーベンシュタイン距離を使用した部分一致は、コンテンツの種類が文字列のフィールドに対する既定のスコアリング方法です。その他すべてのコンテンツの種類 (日付、数値、ID 番号、電話番号) では、完全一致のスコアリングのみが使用されます。

文字列フィールドの場合は、Document Understanding の [ドキュメントの種類] ビューの、フィールド設定ダイアログの [詳細設定] タブでこの設定を変更できます。

たとえば、評価データセットに 100 個のドキュメントがあり、Purchase Order Number というフィールドがドキュメントの半分に表示され、そのうちの 40 個が正しく、10 個がレーベンシュタイン距離 0.8 で部分的に正しいとモデルが予測した場合、精度は (40 + 10 x 0.8 + 50)/100 = 98% になります。

注:

フィールドが未入力で、モデルが何も予測しなかった 50 個のドキュメントについても、予測が成功したものとしてカウントされます。

トレーニングパイプラインでは、スコアは検証データセットに対して計算されます。検証データセットは、トレーニングパイプラインで提出された全トレーニングデータセットのうち 20% のランダムに選択されたサブセットです。

トレーニングパイプラインまたはフルパイプラインは、以下の操作にも使用できます。