document-understanding
latest
false
Document Understanding ガイド
Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
Last updated 2024年9月12日

開発

このセクションでは、次の操作を行うことができます。
  • ドキュメントをアップロードし、自動的に分類します。
  • ドキュメントをドキュメントの種類に直接アップロードします。
  • プロジェクトからファイルを管理します (ファイルの追加・削除、タグの追加・変更)。
  • ドキュメントのアノテーションを行います。
  • フィールドを追加または削除します。
  • ビジネス ルールを追加または削除します。
  • 推奨事項を実行しながら分類モデルと抽出モデルをトレーニングする、ガイド付きエクスペリエンスを利用します。

ドキュメントのアノテーションを行う

プロジェクトが正常に作成され、ドキュメントを特定のドキュメントの種類にアップロードすると、ドキュメントに自動的にアノテーションが行われます。これは、ドキュメントの種類のスキーマに基づいて、特殊なモデルを使用して実行されます。このスキーマにより、特定のドキュメントの種類から抽出するフィールドが明確に定義されています。ドキュメントの種類のスキーマを確認するには、[アノテーション] ページに移動して [フィールド] セクションを確認します。



For more in-depth information on how to annotate your documents, check the Annotate documents how-to page.

フィールドの設定を編集する

[ドキュメントの種類マネージャー] から複数のフィールドの設定を編集できます。

[ドキュメントの種類マネージャー] にアクセスするには、編集するドキュメントの種類の横にある 3 点リーダー メニューのアイコン を選択し、メニューから [ドキュメントの種類の管理] を選択します。

図 1. ドキュメントの種類を選択マネージャー

新しいフィールドを編集または追加する

新しいフィールドを追加するには、[フィールドを追加] を選択し、必要な情報を入力します。各フィールドの以下のオプションを追加または編集できます。
  • フィールド名: フィールドの一意の名前です。
  • コンテンツの種類: フィールドのコンテンツの種類です。
    • 文字列: 会社名、住所、支払条件、および RPA ワークフロー内で解析または書式設定ロジックを手動で構築するその他のあらゆるフィールドに使用されます。
    • 数値: 金額または数量に使用され、小数点/桁区切り文字をインテリジェントに解析します。
    • 日付: YYYY-MM-DD 形式を使用して、出力を解析、フォーマット、統合します。
    • 電話番号: 電話番号に使用されます。書式を設定すると文字と括弧が削除され、スペースがダッシュに置き換えられます。
    • ID番号: 英数字のコードや ID の数字に使用されます。コンテンツの種類「文字列」に似ていますが、「:」の前に来る文字をすべて削除します。抽出する ID 番号に「:」が含まれる場合は、データの損失を避けるためコンテンツの種類に「文字列」を使用してください。
  • ショートカット: フィールドのショートカット キーです。1 つのキー、または 2 つのキーの組み合わせを使用できます。
  • 詳細設定: 利用可能なオプションは、選択したフィールドのコンテンツの種類によって異なります。編集するフィールドの [詳細設定] ボタンを選択します。
    図 2. ドキュメントの種類の詳細設定

    • フィールド ID: フィールドの一意の ID です。
    • 後処理
      • first_span: モデルがドキュメント内のあるフィールドに対して 2 つ以上のインスタンスを予測した場合に、1 つ目のインスタンスを返すようにします。
      • longest_value: モデルがドキュメント内のあるフィールドに対して 2 つ以上のインスタンスを予測した場合に、最も文字数が多い値を返すようにします。
      • highest_confidence: モデルがドキュメント内のあるフィールドに対して 2 つ以上のインスタンスを予測した場合に、最も信頼度の高い値を返すようにします。
      スコアリング: モデルの予測の評価を実行するときの精度を決定するために使用する尺度です。コンテンツの種類が [文字列] のフィールドでのみ利用できます。
      • exact_match: 予測は、真の値に完全に一致する場合にのみ正しい (スコア: 1) とみなされます。1 文字でも異なる場合は、正しくない (スコア: 0) とみなされます。これは、[文字列] フィールド以外のすべてのフィールドにおいて既定の設定です。
      • levenshtein: 予測は、予測と真の値の間のレーベンシュタイン距離に基づいて、部分的に正しいものとみなされます。たとえば、10 文字の値が、最後の 2 文字を除き正しく予測された場合、この予測のスコアは 0.8 になります。
    • 日付形式: コンテンツの種類が [日付] のフィールドでのみ利用できます。あいまいな日付をどのように解析して返すかを指定します。
      • 自動
      • 米国の形式: YYYY-DD-MM
      • 米国以外の形式: YYYY-MM-DD
    • 複数行: テキストが複数行にまたがるフィールドです (住所や説明)。これをオンにしないと、最初の行だけが返されます。
    • 複数値: このフィールドは、ドキュメント内で検出されたすべての値を含むリストを返します。

トレーニングを再トリガーする前に新しいプロジェクト バージョンをパブリッシュした場合、ドキュメントの種類の設定に加えた変更は新しいプロジェクト バージョンに反映されません。

回避策: これを回避するには、ドキュメントの種類のフィールドに変更を加えた後、そのドキュメントの種類を再トレーニングします。そのためには、新しいバージョンをパブリッシュする前に、その種類の追加のドキュメントにタグを付けるか、ドキュメントを確認します。

モデルの設定

ドキュメントの種類の設定は、[モデルの設定] ビューから変更できます。このためには、[モデルの設定] を選択します。

図 3. モデルの設定

次の設定を変更できます。

  • ベース モデル: [推奨されるアクション] に表示されるデータセットのサイズの推定値は、トレーニングに使用されるベース モデルによって異なります。対象のドキュメントの種類に最も類似したベース モデルを使用すると、必要とされるアノテーション作業量が減ります。
  • レイアウトの数: [推奨されるアクション] で使用されるデータセットのサイズの推定値は、データセットに含まれるレイアウトの数によって異なります。一般には、レイアウトの数が多いほど、より多くのデータのアノテーションを行う必要があります。
  • 言語の数: [推奨されるアクション] に表示されるデータセットのサイズの推定値は、データセットに含まれる言語の数によって異なります。一般には、言語の数が多いほど、より多くのデータのアノテーションを行う必要があります。

フィールド名を検索

利用可能なフィールド名を検索できます。これを行うには、[ドキュメントの種類マネージャー] のインターフェイスの左上隅にある検索バーを使用します。より効率的な検索を行うには、[フィルター] 機能を使用してコンテンツの種類でフィルター処理します。

図 4. フィールド名を検索する

フィールドを削除する

削除するフィールドの横にある [削除] を選択します。

図 5. フィールドを削除する

複数 (またはすべて) のフィールドを選択して、一度に削除することもできます。削除するフィールドの横にあるチェック マークを選択して、[削除] をクリックします。
図 6. 複数のフィールドを一度に削除する

ドキュメントを検索する

アップロードしたドキュメントはドキュメント名で検索できます。これを行うには、[構築] セクションの右上隅にある検索バーを使用します。より効率的な検索を行うには、[フィルター] 機能を使用して次の条件でフィルター処理します。
  • ドキュメントの種類: ドロップダウン リストから目的のドキュメントの種類を選択します。
  • アップロード日: ドキュメントがアップロードされた日付の期間を選択します。
  • ステータス: ドキュメントのステータスを選択します。


プロジェクトとモデルのスコア

プロジェクトの総合スコアは右上隅から確認できます。このスコアは、すべてのドキュメントの種類の分類器と抽出器のスコアを考慮して算出されています。[プロジェクト スコア] をクリックすると [評価] セクションが表示され、より詳細なパフォーマンスの評価を確認できます。

ドキュメントの種類ごとのスコアは、[ドキュメントの種類] セクションで個別に確認できます。このスコアでは、モデルの全体的なパフォーマンスに加えてデータセットのサイズと品質も考慮されます。

注: プロジェクトのスコアを取得するには、少なくとも 10 個のドキュメントをアップロードする必要があります。ドキュメントの種類のスコアの場合、同じドキュメントの種類で少なくとも 10 個のドキュメントが必要です。


スコア タグを選択すると、使用しているモデルに関するモデルの評価を確認できます。モデルの評価は、分類モデルのパフォーマンスを視覚化するのに役立つ機能です。評価は、次のように 0 から 100 までのモデルのスコアとして表されます。
  • 不良 (0-49)
  • 平均的 (50-69)
  • 良好 (70-89)
  • 優秀 (90-100)

[モデルの詳細なスコア] を選択して [評価] セクションに移動し、詳細情報を確認します。



このページは役に立ちましたか?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
Uipath Logo White
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.