アクティビティ - Document Data

activities

latest

false

Document Understanding アクティビティ

重要 :

このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

ドキュメントデータ

Document Data オブジェクトの参照です。Document Understanding ワークフローの主要な入力変数および出力変数として機能します。

ドキュメントデータは、Document Understanding ワークフロー内で入力変数および出力変数の両方として機能するリソースです。Document Data オブジェクトは、1 つのドキュメントに関する必要な情報をすべて保持します。ドキュメントを分類する場合、このオブジェクトにはドキュメントの種類が含まれます。データを抽出する場合は、対応する抽出されたフィールドが含まれます。アクティビティに関係なく、ドキュメントのテキストと DOM (ドキュメントオブジェクトモデル) は常に含まれます。

ドキュメントデータにより、ドキュメントに関して必要な情報すべてを 1 つの変数に収集し、データをオブジェクトの各プロパティに保存して、ワークフロー内の他のアクティビティで再利用できます。

ドキュメントデータには、以下の属性に関する情報が保持されます。

DocumentType: 識別されたドキュメントの種類に関するデータを提供します。[ドキュメントを分類] や [分類の検証タスクを作成] などのアクティビティによって設定されます。
Data: 抽出されたフィールド値が含まれます。これは [Generate Data ] プロパティによってオンデマンドで生成され、出力の種類である IDocumentData<ExtractorType>が生成されます。[Generate Data] プロパティを Falseに設定すると、抽出されたフィールド値には Getメソッドからしかアクセスできません。
FileDetails: IResourceの詳細が含まれます。
注:
IResource は、クロスプラットフォームワークフローで使用されるデータを特定してアクセスするためのユニバーサルポインターです。IResource 、現在のワークフロー以外に保存されているローカルデータ (ローカルファイルなど) や外部データ (クラウドファイルなど) への参照を格納するコンテナーとして機能します。このデータは、さまざまなソースから取得できます。IResourceおよび公開されるプロパティについて詳しくは、「ファイルおよびフォルダーのリソースを使用する」をご覧ください。
SubDocuments: ドキュメントデータのコレクションが含まれます。[分類の検証タスクを作成] などのアクティビティによって設定されます。
DocumentMetadata: ドキュメントの処理に関する以下のような情報が含まれます。
- テキストで検出された言語
- データテーブルとしての抽出されたフィールド
- ドキュメントオブジェクトモデル (DOM): すべてのアクティビティで使用されるドキュメントオブジェクトモデルを保持します。DocumentMetadata は、ドキュメントを最初に処理するアクティビティによって更新されます。設定されたメタデータは、Document Data オブジェクトを受け取る後続のアクティビティすべてと共有されて、各アクティビティで使用されます。
  ヒント:
  アクティビティが Studio のワークフローの最初の Document Understanding アクティビティでない限り、 Document Data を入力として使用します。アクティビティが Studio のワークフローの最初の Document Understanding アクティビティである場合にのみ、 File 変数を入力として使用します。

データを理解しアクセスする

ドキュメントデータには、抽出結果に関する詳細情報が含まれています。データには、オンデマンドで生成してワークフロー内で使用できるようにするか、データを生成せずに get メソッドや set メソッドを実行して柔軟性を高める (高度な実装用に設計) ようにするかによって 2 つの型があります。

[ドキュメントデータを抽出] アクティビティの [データ型を生成] プロパティを使用すると、データをオンデマンドで生成するかどうかを選択できます。次のシナリオを参照してください。

[データ型を生成] を True (既定) に設定すると、ドキュメントデータは IDocumentData<ExtractorType>として出力されます。このデータはオンデマンドで生成され、[ドキュメントデータを抽出] アクティビティで行った修正に基づいて変更されます。この設定では、検証ステーションでドキュメントの種類を変更することはできず、既定で JIT (Just in Time) が選択されます。
When you set Generate Data Type to False: Document Data outputs as IDocumentData<DictionaryData>. With this setting, the Document Data property will not be generated anymore, and you won't be able to browse through it. You can access its data using specific methods, relying on the field ID. These IDs become available when configuring the document type or when retrieving the information using APIs. Visit Editing or adding new fields and Get the extraction request API for more information. As an alternative to these methods, you can navigate and edit the results in a fluent, strongly-typed way through the Handler property, which exposes an ExtractionResultHandler navigator.
- 生成 AI による抽出で [データ型を生成 ] を [ False ] に設定すると、プロンプトで指定した名前に対応するフィールドが取得されます。たとえば、プロンプトのフィールド名が a b c (スペースを含む) として定義されている場合は、特定のメソッドを使用するときに同じフィールド ID を使用する必要があります。

ドキュメントデータをアクティビティに渡す

ドキュメントデータを使用する場合、最初の出力オブジェクトは入力ファイルから作成されます。このオブジェクトを作成したら、次のアクティビティに渡すことをお勧めします。このオブジェクトを次のアクティビティに渡すことで、元のファイルのテキストと DOM を再利用できます。このアプローチを使用すると、ファイルを毎回再デジタル化せずに済みます。

単一値フィールドおよび複数値フィールドの抽出結果を使用する

ドキュメントの種類のフィールドを複数値として設定した場合、複数の値が必要です。たとえば、フォーム上の複数選択の質問です。結果は、フィールドの複数値属性に表示され、リストとして返されます。ドキュメントの種類のフィールドを単一値として設定した場合、結果は既定でフィールドの値の属性で返されます。

次の表は、ドキュメントデータで単一値フィールドと複数値フィールドがどのように返されるかを示しています。

表 1.ドキュメントデータによって単一値フィールドおよび複数値フィールドに対して返される値

	値がない	値が 1 つある	2 つ以上の値を持つ	DocumentData.Data.FieldName.Value	DocumentData.Data.FieldName.MultiValues
単一の値	はい	いいえ	N/A	""	null
単一の値	いいえ	はい	N/A		null
複数値	はい	いいえ	いいえ	""	[] (空の配列)
複数値	いいえ	はい	いいえ		[<`.Value`> と同じ値が 1 つ含まれる配列]
複数値	いいえ	いいえ	はい		[<`n` 個の値が含まれる配列であり、最初の値は `.Value` と同じ>]

抽出されたフィールドをデータテーブルとして返す

Document Data オブジェクトを使用して、ドキュメントから抽出したフィールドをデータテーブルとして返すことができます。その後、この DataTable 型の変数を Excel アクティビティ内で使用できます。

抽出されたフィールドをデータテーブルとして返すには、[ドキュメントデータを抽出] アクティビティの ResultsAsDatatable 出力を選択します。

プロパティ

Document Data 変数のプロパティは、1 つまたは複数のアクティビティにより設定、または使用されます。変数を設定するアクティビティに応じて、プロパティは異なります。次のリストを確認してください。

DocumentType - [ドキュメントを分類] アクティビティで以下の値が設定されます。
- DisplayName (カスタムモデルに使用): ドキュメントの種類の名前。
- ID (すぐに使えるモデルに使用): ドキュメントの種類の名前。
- Confidence: 分類の信頼度。
- URL: [ドキュメントの種類] にアクセスできる場所の URL です。カスタムまたは定義済みの引数を指定できます。Document Understanding センターの各プロジェクトを介して参照されます。
Fields - [ドキュメントデータを抽出]、[検証タスクを作成]、[検証タスクを作成して待機]、[検証タスク完了まで待機し再開] アクティビティで以下の値が設定されます。
- Field Value: フィールドの抽出値。
- Extraction Confidence Score: モデルにより設定される、抽出の信頼度スコアです。
- OCR 信頼度スコア: OCR エンジンにより提供される信頼度スコアです。
File Details - Document Data オブジェクトを作成し、ファイルを入力として受け取るアクティビティで以下の値が設定されます。
- Local Path: Local path of the file.
- Full Name: ファイルのフルネーム。
- Extension: ファイルの拡張子。
- Page Range: ファイルのページ範囲。
Sub Documents: [ドキュメントを分類] アクティビティにより設定されるドキュメントデータのコレクションです。
注:
これは、現在は入力されません。分類の検証および分割機能と共に、将来追加される予定です。
DocumentMetaData:
- DOM: すべてのアクティビティで使用されるドキュメントオブジェクトモデルです。(Document Data オブジェクトを作成し、ファイルを入力として受け取るアクティビティによって設定されます。)
- テキスト: すべての抽出テキストです。(Document Data オブジェクトを作成し、ファイルを入力として受け取るアクティビティによって設定されます。)
- 言語: ドキュメントで検出された言語です。(Document Data オブジェクトを作成し、ファイルを入力として受け取るアクティビティによって設定されます。)
- 分割信頼度: ドキュメントが分割された場合、ドキュメントは分割モデルによって返されます。([ドキュメントを分類] アクティビティによって設定されます。)
  注:
  これは、現在は入力されません。分類の検証および分割機能と共に、将来追加される予定です。
- Results as Data Tables: データテーブルとしてエクスポートされるフィールド ([ドキュメントデータを抽出] アクティビティにより設定される)。
Properties (advanced) - Holds the underlying processing context that the other members and methods read from. This property is hidden in the Studio designer, but it is publicly accessible in code. The convenience views on the output, such as the Handler property and the Get/Set methods, operate over the ExtractionResult exposed here. The property exposes the following values:
- ExtractionResult: The raw extraction result, used by the navigator and the Get/Set methods.
- Taxonomy: The document taxonomy, holding the field and table definitions.
- ClassificationResults: The classification results for the document.
- ProjectId, ExtractorId, ClassifierId: Identifiers of the project and the models used.
- ExtractorModelType, ClassifierModelType: The model types used for extraction and classification.

データを理解しアクセスする
ドキュメントデータをアクティビティに渡す
単一値フィールドおよび複数値フィールドの抽出結果を使用する
抽出されたフィールドをデータテーブルとして返す
プロパティ

このページは役に立ちましたか?

前へプロジェクトの対応 OS

次へメソッド

データを理解しアクセスする​

ドキュメント データをアクティビティに渡す​

単一値フィールドおよび複数値フィールドの抽出結果を使用する​

抽出されたフィールドをデータ テーブルとして返す​