document-understanding
2023.4
false
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。 新しいコンテンツの翻訳は、およそ 1 ~ 2 週間で公開されます。
UiPath logo, featuring letters U and I in white

Document Understanding ガイド

Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
最終更新日時 2024年12月18日

データセット診断

新しいモデルをゼロからトレーニングするのは、ときに非常に手間のかかる作業です。

データセット診断機能では、モデルをトレーニングして適切な精度を得るために必要な手順に関するフィードバックやヒントが提供されるため、効果的なデータセットを構築できます。

データセット診断ツールは Document Manager の管理バーにあり、新しいモデルのトレーニング プロセス全体を通して視覚的かつ文字によるガイダンスを提供します。

管理バーに表示されるデータセットのステータス レベルには、以下の 3 種類があります。

  • - ラベル付けされたトレーニング データの追加が必要です。
  • オレンジ - ラベル付けされたトレーニング データの追加が推奨されます。
  • - ラベル付けされたトレーニング データが必要量に達しています。

セッションでフィールドが作成されていない場合は、データセットのステータス レベルは灰色になります。

各ステータスの詳細は、データセット診断のポップアップ メニューで確認できます。[データセット診断] ボタンをクリックして開きます。



データセット診断のメニュー

データセット タブ

モデルのトレーニングに使用されるドキュメントに関する情報、インポートされたページの総数、およびラベル付けされたページの総数が表示されます。

色分けされたステータス バーの区切りは、モデルのトレーニングに必要なラベル付けされたページの推奨数と、データセット (ラベル付けされたデータとラベル付けされていないデータを含む) の実際のステータスによって決定されます。ステータス バーの色の上でホバーすると、各ステータスに関する追加情報がツールチップに表示されます。

[データセット] タブの数値はトレーニング セッションの標準フィールドと項目フィールドの数に基づいて計算されます。

  • - モデルをトレーニングするには、ラベル付けされたデータをデータセットに追加する必要があります。
  • オレンジ - トレーニングするモデルの精度を向上するには、ラベル付けされたデータの追加が推奨されます。現状のデータのまま続行することもできますが、精度のレベルは期待されるほど高くありません。
  • - データセットには、適切なトレーニングを行い正確な情報を抽出するのに十分な量のラベル付けされたデータがあります。

フィールド タブ

ラベル付けされた各フィールドに関する情報が表示されます。具体的には、ラベルのタグ付けが済んでいるトレーニング ページの総数、ラベル付けされたフィールドがある、評価されたドキュメントの総数、および現在のトレーニング セットのステータスを確認できます。

docs image
  • フィールド - ラベル付けされたフィールドの名前です。
  • トレーニング ページ - このフィールドがラベル付けされている、トレーニング セットと検証セットのページ数です。
  • 評価ドキュメント - このフィールドがラベル付けされている、評価セットに含まれるドキュメントの数です。
  • ステータス - 各フィールドのステータスです。 オレンジの 3 つのオプションでマークされます。

[ステータス] バーのオプションは次のとおりです。

  • - フィールドに関するデータが不足しており、追加のラベル付けが必要です。
    docs image
  • オレンジ - 結果の関連性を高めるには、追加のページをラベル付けする必要があります。
    docs image
  • 緑色 - 結果の関連性を高めるのに十分な数のラベル付けされたページがあります。
    docs image

[更新][閉じる] ボタンは両方のタブに適用されます。つまり、[データセット] タブで [更新] ボタンをクリックすると、[フィールド] タブも更新されます。

  • 更新 - データセットの合計ページ数またはラベル付きページ数を変更した後に情報を更新するにはこのオプションを使用します。このポップアップ メニューは、数分ごとに両方のタブが同時に自動的に更新されます。この機能は自動更新のタイミング以外で更新する場合に使用します。
  • 閉じる - 必要な情報の収集が完了したら、[閉じる] ボタンをクリックしてメニューを閉じます。どのタブでクリックしても、ポップアップ メニュー全体が閉じます。

[計算機能] タブ

[計算機能] タブは、新しいドキュメントの種類の作成時に追加した情報と同じ情報を指定します。
docs image
データセットの計算機能を使用して、ドキュメントの種類の作成時に最初に追加した情報の一部を変更できます。

データセットの計算機能では、以下のフィールドを変更できます。

  • すぐに使えるドキュメントの種類
  • 言語の数
  • レイアウトの数

[計算機能] タブの以下のフィールドは読み取り専用です。これらの値は、使用されているすぐに使えるドキュメントの種類と現在のスキーマ フィールドの共通部分を求めることで決定されます。

  • すぐに使える標準フィールド
  • すぐに使える列フィールド
  • すぐに使える分類フィールド

前述のフィールドのいずれかを変更すると、データセットの推奨サイズに影響します。現在開いているポップアップの [データセット] タブが更新され、新しい推奨サイズに基づいて緑/黄/赤のステータスに変わります。変更を保存すると、全体的なデータセット診断インジケーターで新しい [データセット] タブの健全性が考慮されます。

たとえば、ドキュメントの種類を最初に作成したときに、[すぐに使えるドキュメントの種類] フィールドで [請求書] を選択したとします。最初に選択した種類を他の種類 ([領収書] など) に変更すると、両方のドキュメントの種類の情報がデータセットに融合され、選択した両方の種類 (請求書と領収書) に共通する情報が表示されます。

一方のモデルにのみ存在するフィールドがある場合、そのフィールドは [カスタムの標準フィールド] または [カスタムの列フィールド] に表示されます。この変更は標準フィールドと分類フィールドの両方に適用されるためです。

  • データセット診断のメニュー
  • データセット タブ
  • フィールド タブ
  • [計算機能] タブ

このページは役に立ちましたか?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
Uipath Logo White
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.