- 概要
- Document Processing Contracts
- リリース ノート
- Document Processing Contracts について
- Box クラス
- IPersistedActivity インターフェイス
- PrettyBoxConverter クラス
- IClassifierActivity インターフェイス
- IClassifierCapabilitiesProvider インターフェイス
- ClassifierDocumentType クラス
- ClassifierResult クラス
- ClassifierCodeActivity クラス
- ClassifierNativeActivity クラス
- ClassifierAsyncCodeActivity クラス
- ClassifierDocumentTypeCapability クラス
- ExtractorAsyncCodeActivity クラス
- ExtractorCodeActivity クラス
- ExtractorDocumentType クラス
- ExtractorDocumentTypeCapabilities クラス
- ExtractorFieldCapability クラス
- ExtractorNativeActivity クラス
- ExtractorResult クラス
- ICapabilitiesProvider インターフェイス
- IExtractorActivity インターフェイス
- ExtractorPayload クラス
- DocumentActionPriority 列挙型
- DocumentActionData クラス
- DocumentActionStatus 列挙型
- DocumentActionType 列挙型
- DocumentClassificationActionData クラス
- DocumentValidationActionData クラス
- UserData クラス
- Document クラス
- DocumentSplittingResult クラス
- DomExtensions クラス
- Page クラス
- PageSection クラス
- Polygon クラス
- PolygonConverter クラス
- Metadata クラス
- WordGroup クラス
- Word クラス
- ProcessingSource 列挙型
- ResultsTableCell クラス
- ResultsTableValue クラス
- ResultsTableColumnInfo クラス
- ResultsTable クラス
- Rotation 列挙型
- SectionType 列挙型
- WordGroupType 列挙型
- IDocumentTextProjection インターフェイス
- ClassificationResult クラス
- ExtractionResult クラス
- ResultsDocument クラス
- ResultsDocumentBounds クラス
- ResultsDataPoint クラス
- ResultsValue クラス
- ResultsContentReference クラス
- ResultsValueTokens クラス
- ResultsDerivedField クラス
- ResultsDataSource 列挙型
- ResultConstants クラス
- SimpleFieldValue クラス
- TableFieldValue クラス
- DocumentGroup クラス
- DocumentTaxonomy クラス
- DocumentType クラス
- Field クラス
- FieldType 列挙型
- LanguageInfo クラス
- MetadataEntry クラス
- TextType 列挙型
- TypeField クラス
- ITrackingActivity インターフェイス
- ITrainableActivity インターフェイス
- ITrainableClassifierActivity インターフェイス
- ITrainableExtractorActivity インターフェイス
- TrainableClassifierAsyncCodeActivity クラス
- TrainableClassifierCodeActivity クラス
- TrainableClassifierNativeActivity クラス
- TrainableExtractorAsyncCodeActivity クラス
- TrainableExtractorCodeActivity クラス
- TrainableExtractorNativeActivity クラス
- Document Understanding Digitizer
- Document Understanding ML
- Document Understanding OCR ローカル サーバー
- Document Understanding
- IntelligentOCR
- リリース ノート
- IntelligentOCR アクティビティ パッケージについて
- プロジェクトの対応 OS
- 認証を構成する
- タクソノミーを読み込み
- ドキュメントをデジタル化
- ドキュメント分類スコープ
- キーワード ベースの分類器
- Document Understanding プロジェクト分類器
- インテリジェント キーワード分類器
- ドキュメント分類アクションを作成
- ドキュメント分類アクション完了まで待機し再開
- 分類器トレーニング スコープ
- キーワード ベースの分類器トレーナー
- インテリジェント キーワード分類器トレーナー
- データ抽出スコープ
- Document Understanding プロジェクト抽出器
- 正規表現ベースの抽出器
- フォーム抽出器
- インテリジェント フォーム抽出器
- 検証ステーションを提示
- ドキュメント検証アクションを作成
- ドキュメント検証アクション完了まで待機し再開
- 抽出器トレーニング スコープ
- 抽出結果をエクスポート
- ML サービス
- OCR
- OCR Contracts
- リリース ノート
- OCR コントラクトについて
- プロジェクトの対応 OS
- IOCRActivity インターフェイス
- OCRAsyncCodeActivity クラス
- OCRCodeActivity クラス
- OCRNativeActivity クラス
- Character クラス
- OCRResult クラス
- Word クラス
- FontStyles 列挙型
- OCRRotation 列挙型
- OCRCapabilities クラス
- OCRScrapeBase クラス
- OCRScrapeFactory クラス
- ScrapeControlBase クラス
- ScrapeEngineUsages 列挙型
- ScrapeEngineBase
- ScrapeEngineFactory クラス
- ScrapeEngineProvider クラス
- OmniPage
- PDF
- [リストから削除済] ABBYY
- [リストから削除済] ABBYY Embedded
Document Understanding アクティビティ
ドキュメント データ
ドキュメント データは、Document Understanding ワークフロー内で入力変数および出力変数の両方として機能するリソースです。Document Data オブジェクトは、1 つのドキュメントに関する必要な情報をすべて保持します。ドキュメントを分類する場合、このオブジェクトにはドキュメントの種類が含まれます。データを抽出する場合は、対応する抽出されたフィールドが含まれます。アクティビティに関係なく、ドキュメントのテキストと DOM (ドキュメント オブジェクト モデル) は常に含まれます。
ドキュメント データにより、ドキュメントに関して必要な情報すべてを 1 つの変数に収集し、データをオブジェクトの各プロパティに保存して、ワークフロー内の他のアクティビティで再利用できます。
ドキュメント データには、以下の属性に関する情報が保持されます。
- DocumentType: 識別されたドキュメントの種類に関するデータを提供します。[ドキュメントを分類] や [分類の検証タスクを作成] などのアクティビティによって設定されます。
- Data: 抽出されたフィールド値が含まれます。これは [Generate Data] プロパティによってオンデマンドで生成され、出力の種類である
IDocumentData<ExtractorType>
が生成されます。[Generate Data] プロパティをFalse
に設定すると、抽出されたフィールド値にはGet
メソッドからしかアクセスできません。 - FileDetails:
IResource
の詳細が含まれます。 - SubDocuments: ドキュメント データのコレクションが含まれます。[分類の検証タスクを作成] などのアクティビティによって設定されます。
- DocumentMetadata: ドキュメントの処理に関する以下のような情報が含まれます。
- テキストで検出された言語
- データ テーブルとしての抽出されたフィールド
- ドキュメント オブジェクト モデル (DOM): すべてのアクティビティで使用されるドキュメント オブジェクト モデルを保持します。
ヒント: アクティビティが Studio のワークフローの最初の Document Understanding アクティビティでない限り、Document Data を入力として使用します。アクティビティが Studio のワークフローの最初の Document Understanding アクティビティである場合にのみ、File 変数を入力として使用します。
get
メソッドや set
メソッドを実行して柔軟性を高める (高度な実装用に設計) ようにするかによって 2 つの型があります。
[ドキュメント データを抽出] アクティビティの [データ型を生成] プロパティを使用すると、データをオンデマンドで生成するかどうかを選択できます。次のシナリオを参照してください。
- [データ型を生成] を
True
(既定) に設定すると、ドキュメント データはIDocumentData<ExtractorType>
として出力されます。このデータはオンデマンドで生成され、[ドキュメント データを抽出] アクティビティで行った修正に基づいて変更されます。この設定では、検証ステーションでドキュメントの種類を変更することはできず、既定で JIT (Just in Time) が選択されます。 - [データ型を生成] を
False
に設定すると、ドキュメント データはIDocumentData<DictionaryData>
として出力されます。この設定では、[ドキュメント データ] プロパティが生成されなくなり、プロパティを参照できなくなります。フィールド ID を使用して、特定のメソッドでデータにアクセスできます。これらの ID は、ドキュメントの種類を設定するとき、または API を使用して情報を取得するときに利用できるようになります。詳しくは、「新しいフィールドを編集または追加する」および「抽出要求を取得する」をご覧ください。
- 生成 AI による抽出で [データ型を生成] を
False
に設定すると、プロンプトで指定した名前に対応するフィールドが取得されます。たとえば、プロンプトのフィールド名がa b c
(スペースを含む) として定義されている場合は、特定のメソッドを使用するときに同じフィールド ID を使用する必要があります。
- 生成 AI による抽出で [データ型を生成] を
ドキュメント データを使用する場合、最初の出力オブジェクトは入力ファイルから作成されます。このオブジェクトを作成したら、次のアクティビティに渡すことをお勧めします。このオブジェクトを次のアクティビティに渡すことで、元のファイルのテキストと DOM を再利用できます。このアプローチを使用すると、ファイルを毎回再デジタル化せずに済みます。
ドキュメントの種類のフィールドを複数値として設定した場合、複数の値が必要です。たとえば、フォーム上の複数選択の質問です。結果は、フィールドの複数値属性に表示され、リストとして返されます。ドキュメントの種類のフィールドを単一値として設定した場合、結果は既定でフィールドの値の属性で返されます。
次の表は、ドキュメント データで単一値フィールドと複数値フィールドがどのように返されるかを示しています。
値がない | 値が 1 つある | 2 つ以上の値を持つ | DocumentData.Data.FieldName.Value | DocumentData.Data.FieldName.MultiValues | |
---|---|---|---|---|---|
単一の値 | はい | いいえ | N/A | "" | null |
単一の値 | いいえ | はい | N/A | <識別された値> | null |
複数値 | はい | いいえ | いいえ | "" | [] (空の配列) |
複数値 | いいえ | はい | いいえ | <識別された値> | [<.Value > と同じ値が 1 つ含まれる配列]
|
複数値 | いいえ | いいえ | はい | <識別された 1 つ目の値> | [<n 個の値が含まれる配列であり、最初の値は .Value と同じ>]
|
Document Data オブジェクトを使用して、ドキュメントから抽出したフィールドをデータ テーブルとして返すことができます。その後、この DataTable 型の変数を Excel アクティビティ内で使用できます。
抽出されたフィールドをデータ テーブルとして返すには、[ドキュメント データを抽出] アクティビティの ResultsAsDatatable 出力を選択します。
Document Data 変数のプロパティは、1 つまたは複数のアクティビティにより設定、または使用されます。変数を設定するアクティビティに応じて、プロパティは異なります。次のリストを確認してください。
- DocumentType - [ドキュメントを分類] アクティビティで以下の値が設定されます。
- DisplayName (カスタム モデルに使用): ドキュメントの種類の名前。
- ID (すぐに使えるモデルに使用): ドキュメントの種類の名前。
- Confidence: 分類の信頼度。
- URL: [ドキュメントの種類] にアクセスできる場所の URL です。カスタムまたは定義済みの引数を指定できます。Document Understanding センターの各プロジェクトを介して参照されます。
- Fields - [ドキュメント データを抽出]、[検証タスクを作成]、[検証タスクを作成して待機]、[検証タスク完了まで待機し再開] アクティビティで以下の値が設定されます。
- Field Value: フィールドの抽出値。
- Extraction Confidence Score: モデルにより設定される、抽出の信頼度スコアです。
- OCR 信頼度スコア: OCR エンジンにより提供される信頼度スコアです。
- File Details - Document Data オブジェクトを作成し、ファイルを入力として受け取るアクティビティで以下の値が設定されます。
- Full Name: ファイルのフル ネーム。
- Extension: ファイルの拡張子。
- Page Range: ファイルのページ範囲。
- Sub Documents: [ドキュメントを分類] アクティビティにより設定されるドキュメント データのコレクションです。
注: これは、現在は入力されません。分類の検証および分割機能と共に、将来追加される予定です。
- DocumentMetaData:
- DOM: すべてのアクティビティで使用されるドキュメント オブジェクト モデルです。(Document Data オブジェクトを作成し、ファイルを入力として受け取るアクティビティによって設定されます。)
- テキスト: すべての抽出テキストです。(Document Data オブジェクトを作成し、ファイルを入力として受け取るアクティビティによって設定されます。)
- 言語: ドキュメントで検出された言語です。(Document Data オブジェクトを作成し、ファイルを入力として受け取るアクティビティによって設定されます。)
- 分割信頼度: ドキュメントが分割された場合、ドキュメントは分割モデルによって返されます。([ドキュメントを分類] アクティビティによって設定されます。)
注: これは、現在は入力されません。分類の検証および分割機能と共に、将来追加される予定です。
- Results as Data Tables: データ テーブルとしてエクスポートされるフィールド ([ドキュメント データを抽出] アクティビティにより設定される)。