Document Understanding
最新
バナーの背景画像
Document Understanding ガイド
最終更新日 2024年4月30日

パイプラインについて

Document Understanding ML パッケージは、以下の 3 種類のパイプラインすべてを実行できます。

パイプライン実行が完了すると、それに関連付けられた出力とログが得られます。この情報を確認するには、左側のサイドバーにある [パイプライン] タブでパイプラインをクリックし、パイプライン ビューを開きます。このビューに含まれる項目は以下のとおりです。

  • パイプラインの詳細: 種類、ML パッケージの名前とバージョン、データセット、GPU の使用状況、パラメーター、実行時間などが表示されます。
  • [出力] ペイン: パイプラインの詳細を要約した _results.json ファイルが必ず含まれます。
  • [ログ] ページ: 左側のサイドバーにある [ML ログ] タブでもログを取得できます。
すべてのパイプラインは、次の 3 つの異なるファイルでスコアを返します。
  • evaluation_scores_<package name>.txt - このファイルには、すべてのフィールドの精度スコアが含まれます。
  • evaluation_<package name>.xlsx - このファイルには、フィールドおよびバッチごとの詳細な精度の内訳と、横並びに表示された各フィールドの比較情報が含まれます。見逃したフィールド (赤) または部分的に一致したフィールド (黄色) が色で強調表示されます。
  • evaluation_F1_scores.txt - このファイルには、すべてのフィールドの F1 スコアが含まれます。
精度の値は、一致数を予測総数で割ることで得られます。一致した場合は重み 1 が付加され、部分一致の場合は、予測と真の値の間のレーベンシュタイン距離に対応する重みが付加されます。
注:

レーベンシュタイン距離を使用した部分一致は、コンテンツの種類が文字列のフィールドに対する既定のスコアリング方法です。その他すべてのコンテンツの種類 (日付、数値、ID 番号、電話番号) では、完全一致のスコアリングのみが使用されます。

文字列フィールドの場合は、Document Understanding の [ドキュメントの種類] ビューの、フィールド設定ダイアログの [詳細設定] タブでこの設定を変更できます。

たとえば、評価データセットに 100 個のドキュメントがあり、Purchase Order Number というフィールドがドキュメントの半分に表示され、そのうちの 40 個が正しく、10 個がレーベンシュタイン距離 0.8 で部分的に正しいとモデルが予測した場合、精度は (40 + 10 x 0.8 + 50)/100 = 98% になります。

注:

フィールドが未入力で、モデルが何も予測しなかった 50 個のドキュメントについても、予測が成功したものとしてカウントされます。

トレーニング パイプラインでは、スコアは検証データセットに対して計算されます。検証データセットは、トレーニング パイプラインで提出された全トレーニング データセットのうち 20% のランダムに選択されたサブセットです。

トレーニング パイプラインまたはフル パイプラインは、以下の操作にも使用できます。

注意:

トレーニング パイプラインフル パイプラインは、ラベル付けされた最大 18,000 ページのトレーニング セットをサポートします。

Was this page helpful?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
UiPath ロゴ (白)
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.