activities
latest
false
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。 新しいコンテンツの翻訳は、およそ 1 ~ 2 週間で公開されます。
UiPath logo, featuring letters U and I in white

Document Understanding アクティビティ

最終更新日時 2024年12月5日

ドキュメント データ

ドキュメント データは、Document Understanding ワークフロー内で入力変数および出力変数の両方として機能するリソースです。Document Data オブジェクトは、1 つのドキュメントに関する必要な情報をすべて保持します。ドキュメントを分類する場合、このオブジェクトにはドキュメントの種類が含まれます。データを抽出する場合は、対応する抽出されたフィールドが含まれます。アクティビティに関係なく、ドキュメントのテキストと DOM (ドキュメント オブジェクト モデル) は常に含まれます。

ドキュメント データにより、ドキュメントに関して必要な情報すべてを 1 つの変数に収集し、データをオブジェクトの各プロパティに保存して、ワークフロー内の他のアクティビティで再利用できます。

ドキュメント データには、以下の属性に関する情報が保持されます。

  • DocumentType: 識別されたドキュメントの種類に関するデータを提供します。[ドキュメントを分類][分類の検証タスクを作成] などのアクティビティによって設定されます。
  • Data: 抽出されたフィールド値が含まれます。これは [Generate Data] プロパティによってオンデマンドで生成され、出力の種類である IDocumentData<ExtractorType> が生成されます。[Generate Data] プロパティを False に設定すると、抽出されたフィールド値には Get メソッドからしかアクセスできません。
  • FileDetails: IResource の詳細が含まれます。
  • SubDocuments: ドキュメント データのコレクションが含まれます。[分類の検証タスクを作成] などのアクティビティによって設定されます。
  • DocumentMetadata: ドキュメントの処理に関する以下のような情報が含まれます。
    • テキストで検出された言語
    • データ テーブルとしての抽出されたフィールド
    • ドキュメント オブジェクト モデル (DOM): すべてのアクティビティで使用されるドキュメント オブジェクト モデルを保持します。
    DocumentMetadata は、ドキュメントを最初に処理するアクティビティによって更新されます。設定されたメタデータは、Document Data オブジェクトを受け取る後続のアクティビティすべてと共有されて、各アクティビティで使用されます。
    ヒント: アクティビティが Studio のワークフローの最初の Document Understanding アクティビティでない限り、Document Data を入力として使用します。アクティビティが Studio のワークフローの最初の Document Understanding アクティビティである場合にのみ、File 変数を入力として使用します。

データを理解しアクセスする

ドキュメント データには、抽出結果に関する詳細情報が含まれています。データには、オンデマンドで生成してワークフロー内で使用できるようにするか、データを生成せずに get メソッドや set メソッドを実行して柔軟性を高める (高度な実装用に設計) ようにするかによって 2 つの型があります。

[ドキュメント データを抽出] アクティビティの [データ型を生成] プロパティを使用すると、データをオンデマンドで生成するかどうかを選択できます。次のシナリオを参照してください。

  • [データ型を生成]True (既定) に設定すると、ドキュメント データは IDocumentData<ExtractorType> として出力されます。このデータはオンデマンドで生成され、[ドキュメント データを抽出] アクティビティで行った修正に基づいて変更されます。この設定では、検証ステーションでドキュメントの種類を変更することはできず、既定で JIT (Just in Time) が選択されます。
  • [データ型を生成]False に設定すると、ドキュメント データは IDocumentData<DictionaryData> として出力されます。この設定では、[ドキュメント データ] プロパティが生成されなくなり、プロパティを参照できなくなります。

    フィールド ID を使用して、特定のメソッドでデータにアクセスできます。これらの ID は、ドキュメントの種類を設定するとき、または API を使用して情報を取得するときに利用できるようになります。詳しくは、「新しいフィールドを編集または追加する」および「抽出要求を取得する」をご覧ください。

    • 生成 AI による抽出で [データ型を生成]False に設定すると、プロンプトで指定した名前に対応するフィールドが取得されます。たとえば、プロンプトのフィールド名が a b c (スペースを含む) として定義されている場合は、特定のメソッドを使用するときに同じフィールド ID を使用する必要があります。

ドキュメント データをアクティビティに渡す

ドキュメント データを使用する場合、最初の出力オブジェクトは入力ファイルから作成されます。このオブジェクトを作成したら、次のアクティビティに渡すことをお勧めします。このオブジェクトを次のアクティビティに渡すことで、元のファイルのテキストと DOM を再利用できます。このアプローチを使用すると、ファイルを毎回再デジタル化せずに済みます。

単一値フィールドおよび複数値フィールドの抽出結果を使用する

ドキュメントの種類のフィールドを複数値として設定した場合、複数の値が必要です。たとえば、フォーム上の複数選択の質問です。結果は、フィールドの複数値属性に表示され、リストとして返されます。ドキュメントの種類のフィールドを単一値として設定した場合、結果は既定でフィールドの値の属性で返されます。

次の表は、ドキュメント データで単一値フィールドと複数値フィールドがどのように返されるかを示しています。

表 1. ドキュメント データによって単一値フィールドおよび複数値フィールドに対して返される値
 値がない値が 1 つある2 つ以上の値を持つDocumentData.Data.FieldName.ValueDocumentData.Data.FieldName.MultiValues
単一の値 はいいいえN/A""null
単一の値いいえはいN/A<識別された値>null
複数値はいいいえいいえ""[] (空の配列)
複数値いいえはいいいえ<識別された値>[<.Value> と同じ値が 1 つ含まれる配列]
複数値いいえいいえはい<識別された 1 つ目の値>[<n 個の値が含まれる配列であり、最初の値は .Value と同じ>]

抽出されたフィールドをデータ テーブルとして返す

Document Data オブジェクトを使用して、ドキュメントから抽出したフィールドをデータ テーブルとして返すことができます。その後、この DataTable 型の変数を Excel アクティビティ内で使用できます。

抽出されたフィールドをデータ テーブルとして返すには、[ドキュメント データを抽出] アクティビティの ResultsAsDatatable 出力を選択します。

プロパティ

Document Data 変数のプロパティは、1 つまたは複数のアクティビティにより設定、または使用されます。変数を設定するアクティビティに応じて、プロパティは異なります。次のリストを確認してください。

  • DocumentType - [ドキュメントを分類] アクティビティで以下の値が設定されます。
    • DisplayName (カスタム モデルに使用): ドキュメントの種類の名前。
    • ID (すぐに使えるモデルに使用): ドキュメントの種類の名前。
    • Confidence: 分類の信頼度。
    • URL: [ドキュメントの種類] にアクセスできる場所の URL です。カスタムまたは定義済みの引数を指定できます。Document Understanding センターの各プロジェクトを介して参照されます。
  • Fields - [ドキュメント データを抽出][検証タスクを作成][検証タスクを作成して待機][検証タスク完了まで待機し再開] アクティビティで以下の値が設定されます。
    • Field Value: フィールドの抽出値。
    • Extraction Confidence Score: モデルにより設定される、抽出の信頼度スコアです。
    • OCR 信頼度スコア: OCR エンジンにより提供される信頼度スコアです。
  • File Details - Document Data オブジェクトを作成し、ファイルを入力として受け取るアクティビティで以下の値が設定されます。
    • Full Name: ファイルのフル ネーム。
    • Extension: ファイルの拡張子。
    • Page Range: ファイルのページ範囲。
  • Sub Documents: [ドキュメントを分類] アクティビティにより設定されるドキュメント データのコレクションです。
    注: これは、現在は入力されません。分類の検証および分割機能と共に、将来追加される予定です。
  • DocumentMetaData:
    • DOM: すべてのアクティビティで使用されるドキュメント オブジェクト モデルです。(Document Data オブジェクトを作成し、ファイルを入力として受け取るアクティビティによって設定されます。)
    • テキスト: すべての抽出テキストです。(Document Data オブジェクトを作成し、ファイルを入力として受け取るアクティビティによって設定されます。)
    • 言語: ドキュメントで検出された言語です。(Document Data オブジェクトを作成し、ファイルを入力として受け取るアクティビティによって設定されます。)
    • 分割信頼度: ドキュメントが分割された場合、ドキュメントは分割モデルによって返されます。([ドキュメントを分類] アクティビティによって設定されます。)
      注: これは、現在は入力されません。分類の検証および分割機能と共に、将来追加される予定です。
    • Results as Data Tables: データ テーブルとしてエクスポートされるフィールド ([ドキュメント データを抽出] アクティビティにより設定される)。

このページは役に立ちましたか?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
Uipath Logo White