- 概要
- Document Processing Contracts
- リリース ノート
- Document Processing Contracts について
- Box クラス
- IPersistedActivity インターフェイス
- PrettyBoxConverter クラス
- IClassifierActivity インターフェイス
- IClassifierCapabilitiesProvider インターフェイス
- ClassifierDocumentType クラス
- ClassifierResult クラス
- ClassifierCodeActivity クラス
- ClassifierNativeActivity クラス
- ClassifierAsyncCodeActivity クラス
- ClassifierDocumentTypeCapability クラス
- ExtractorAsyncCodeActivity クラス
- ExtractorCodeActivity クラス
- ExtractorDocumentType クラス
- ExtractorDocumentTypeCapabilities クラス
- ExtractorFieldCapability クラス
- ExtractorNativeActivity クラス
- ExtractorResult クラス
- ICapabilitiesProvider インターフェイス
- IExtractorActivity インターフェイス
- ExtractorPayload クラス
- DocumentActionPriority 列挙型
- DocumentActionData クラス
- DocumentActionStatus 列挙型
- DocumentActionType 列挙型
- DocumentClassificationActionData クラス
- DocumentValidationActionData クラス
- UserData クラス
- Document クラス
- DocumentSplittingResult クラス
- DomExtensions クラス
- Page クラス
- PageSection クラス
- Polygon クラス
- PolygonConverter クラス
- Metadata クラス
- WordGroup クラス
- Word クラス
- ProcessingSource 列挙型
- ResultsTableCell クラス
- ResultsTableValue クラス
- ResultsTableColumnInfo クラス
- ResultsTable クラス
- Rotation 列挙型
- SectionType 列挙型
- WordGroupType 列挙型
- IDocumentTextProjection インターフェイス
- ClassificationResult クラス
- ExtractionResult クラス
- ResultsDocument クラス
- ResultsDocumentBounds クラス
- ResultsDataPoint クラス
- ResultsValue クラス
- ResultsContentReference クラス
- ResultsValueTokens クラス
- ResultsDerivedField クラス
- ResultsDataSource 列挙型
- ResultConstants クラス
- SimpleFieldValue クラス
- TableFieldValue クラス
- DocumentGroup クラス
- DocumentTaxonomy クラス
- DocumentType クラス
- Field クラス
- FieldType 列挙型
- LanguageInfo クラス
- MetadataEntry クラス
- TextType 列挙型
- TypeField クラス
- ITrackingActivity インターフェイス
- ITrainableActivity インターフェイス
- ITrainableClassifierActivity インターフェイス
- ITrainableExtractorActivity インターフェイス
- TrainableClassifierAsyncCodeActivity クラス
- TrainableClassifierCodeActivity クラス
- TrainableClassifierNativeActivity クラス
- TrainableExtractorAsyncCodeActivity クラス
- TrainableExtractorCodeActivity クラス
- TrainableExtractorNativeActivity クラス
- Document Understanding Digitizer
- Document Understanding ML
- Document Understanding OCR ローカル サーバー
- Document Understanding Process - Studio のテンプレート
- Document Understanding
- IntelligentOCR
- ML サービス
- OCR
- OCR Contracts
- リリース ノート
- OCR コントラクトについて
- プロジェクトの対応 OS
- IOCRActivity インターフェイス
- OCRAsyncCodeActivity クラス
- OCRCodeActivity クラス
- OCRNativeActivity クラス
- Character クラス
- OCRResult クラス
- Word クラス
- FontStyles 列挙型
- OCRRotation 列挙型
- OCRCapabilities クラス
- OCRScrapeBase クラス
- OCRScrapeFactory クラス
- ScrapeControlBase クラス
- ScrapeEngineUsages 列挙型
- ScrapeEngineBase
- ScrapeEngineFactory クラス
- ScrapeEngineProvider クラス
- OmniPage
- PDF
- [リストから削除済] ABBYY
- [リストから削除済] ABBYY Embedded
ドキュメント データを抽出
UiPath.IntelligentOCR.StudioWeb.Activities.ExtractDocumentDataWithDocumentData<UiPath.IntelligentOCR.StudioWeb.Activities.DataExtraction.ExtendedExtractionResultForDocumentData>
入力ファイルまたは Document Data オブジェクトからデータを抽出し、結果を Document Data オブジェクトに格納します。
[ドキュメント データを抽出] アクティビティの前に Document Data オブジェクトを出力するアクティビティが必要です。Document Data オブジェクトは、[ドキュメントを分類] アクティビティなどの「Document Understanding」系アクティビティで出力として生成されます。
- ドキュメント データ - [ドキュメントを分類] アクティビティから
- ファイル - [ファイル/フォルダーを取得] アクティビティまたは [最新のメールを取得] アクティビティから
生成モデルでサポートされている言語は、使用する OCR エンジンと同じで、プロジェクトによって異なります。 定義済みのプロジェクトの場合、使用される OCR エンジンは UiPath ドキュメント OCR です。詳しくは、「 OCR でサポートされている言語 」をご覧ください。
プロジェクトの対応 OS: クロスプラットフォーム
プロパティ
- プロジェクト - ドロップダウン メニューからお使いの Document Understanding プロジェクトを選択する必要があります。利用可能なオプションは次のとおりです。
- Predefined - 既定のプロジェクトです。
- カスタム プロジェクトは、Document Understanding に移動して作成できます。
- 抽出器 - 選択したプロジェクトの抽出器を選択する必要があります。[Predefined] プロジェクトで利用可能なオプションは次のとおりです。
- こちらに記載されている ML パッケージのいずれか注: [ドキュメント データを抽出] アクティビティは、選択した抽出器でドキュメントの種類を上書きします。これは、生成モデルには適用されません。
- 生成
- こちらに記載されている ML パッケージのいずれか
- プロンプト - [生成] オプションを選択した場合に表示されます。抽出対象のフィールドを識別するためのプロンプトです。キーと値のペアとして指定します。キーはフィールドの名前を、値はフィールドの説明を表します。抽出器が対象値を識別するのに役立ちます。このフィールドをクリックすると、次のオプションがペアになったプロンプトが表示されます。
- フィールド名 - 抽出するフィールド名 (例: 期限) を入力する必要があります (最大 30 文字)。
- 生成 AI プロンプト - 生成 AI 抽出器の入力としてプロンプトを入力する必要があります。 (最大 500 文字)
ヒント: 生成プロンプトの使用方法に関する効果的な実践については、「生成 AI 抽出器 - 効果的な実践」ページをご覧ください。 - 入力ファイル - ファイル自体、またはワークフローで他の「Document Understanding」系アクティビティ ([ドキュメントを分類] など) を使用している場合はそのドキュメント データを指定する必要があります。
入力
- タイムアウト (秒) - 生成モデルの呼び出しの最大実行時間 (秒単位) です。 操作がこのタイムアウトを超えると、遅延やハングを防ぐために自動的に終了します。 このプロパティは、[ 生成抽出器 ] が抽出器として選択されている場合にのみ表示されます。
Advanced (カスタム)
- 自動検証 - このオプションを使用して、自動検証を有効化します。自動検証は、データ抽出で得られた結果を生成モデルに対して検証するのに役立ちます。 [自動検証] フィールドの既定値は
False
です。 - 信頼度のしきい値 - このフィールドは、 自動検証を有効化すると表示されます。 しきい値を下回る抽出結果は、生成抽出モデルと比較されます。 一致する場合、システムはしきい値を満たすように抽出信頼度を調整します。 指定できるしきい値の範囲は 0 から 100 です。
値を 0 に設定すると、検証は適用されません。 ただし、特定の値 (0 から 100) を設定すると、この値より小さいすべての抽出結果がチェックされます。 たとえば、信頼度のしきい値を 80% に設定すると、信頼度が 80% 未満のフィールドに生成検証が適用されます。
メモ: 自動検証は、特殊な抽出モデルでのみ使用できます。
出力
- ドキュメント データ - ファイルから抽出されるすべてのフィールド データです。 情報は、[ドキュメントを分類] アクティビティから受け取ることもできます。
ドキュメント データの仕組みと、単一値フィールドおよび複数値フィールドで抽出結果を使用する方法については、「 ドキュメント データ 」をご覧ください。
- すぐに使えるモデルのパブリック エンドポイント。
- Document Understanding アプリ プロジェクトにデプロイされたカスタム ML モデル
- 生成抽出モデル。