- 概要
- Document Processing Contracts
- リリース ノート
- Document Processing Contracts について
- Box クラス
- IPersistedActivity インターフェイス
- PrettyBoxConverter クラス
- IClassifierActivity インターフェイス
- IClassifierCapabilitiesProvider インターフェイス
- ClassifierDocumentType クラス
- ClassifierResult クラス
- ClassifierCodeActivity クラス
- ClassifierNativeActivity クラス
- ClassifierAsyncCodeActivity クラス
- ClassifierDocumentTypeCapability クラス
- ExtractorAsyncCodeActivity クラス
- ExtractorCodeActivity クラス
- ExtractorDocumentType クラス
- ExtractorDocumentTypeCapabilities クラス
- ExtractorFieldCapability クラス
- ExtractorNativeActivity クラス
- ExtractorResult クラス
- ICapabilitiesProvider インターフェイス
- IExtractorActivity インターフェイス
- ExtractorPayload クラス
- DocumentActionPriority 列挙型
- DocumentActionData クラス
- DocumentActionStatus 列挙型
- DocumentActionType 列挙型
- DocumentClassificationActionData クラス
- DocumentValidationActionData クラス
- UserData クラス
- Document クラス
- DocumentSplittingResult クラス
- DomExtensions クラス
- Page クラス
- PageSection クラス
- Polygon クラス
- PolygonConverter クラス
- Metadata クラス
- WordGroup クラス
- Word クラス
- ProcessingSource 列挙型
- ResultsTableCell クラス
- ResultsTableValue クラス
- ResultsTableColumnInfo クラス
- ResultsTable クラス
- Rotation 列挙型
- SectionType 列挙型
- WordGroupType 列挙型
- IDocumentTextProjection インターフェイス
- ClassificationResult クラス
- ExtractionResult クラス
- ResultsDocument クラス
- ResultsDocumentBounds クラス
- ResultsDataPoint クラス
- ResultsValue クラス
- ResultsContentReference クラス
- ResultsValueTokens クラス
- ResultsDerivedField クラス
- ResultsDataSource 列挙型
- ResultConstants クラス
- SimpleFieldValue クラス
- TableFieldValue クラス
- DocumentGroup クラス
- DocumentTaxonomy クラス
- DocumentType クラス
- Field クラス
- FieldType 列挙型
- LanguageInfo クラス
- MetadataEntry クラス
- TextType 列挙型
- TypeField クラス
- ITrackingActivity インターフェイス
- ITrainableActivity インターフェイス
- ITrainableClassifierActivity インターフェイス
- ITrainableExtractorActivity インターフェイス
- TrainableClassifierAsyncCodeActivity クラス
- TrainableClassifierCodeActivity クラス
- TrainableClassifierNativeActivity クラス
- TrainableExtractorAsyncCodeActivity クラス
- TrainableExtractorCodeActivity クラス
- TrainableExtractorNativeActivity クラス
- Document Understanding Digitizer
- Document Understanding ML
- Document Understanding OCR ローカル サーバー
- Document Understanding
- IntelligentOCR
- リリース ノート
- IntelligentOCR アクティビティ パッケージについて
- プロジェクトの対応 OS
- 認証を構成する
- タクソノミーを読み込み
- ドキュメントをデジタル化
- ドキュメント分類スコープ
- キーワード ベースの分類器
- Document Understanding プロジェクト分類器
- インテリジェント キーワード分類器
- ドキュメント分類アクションを作成
- ドキュメント分類アクション完了まで待機し再開
- 分類器トレーニング スコープ
- キーワード ベースの分類器トレーナー
- インテリジェント キーワード分類器トレーナー
- データ抽出スコープ
- Document Understanding プロジェクト抽出器
- 正規表現ベースの抽出器
- フォーム抽出器
- インテリジェント フォーム抽出器
- 検証ステーションを提示
- ドキュメント検証アクションを作成
- ドキュメント検証アクション完了まで待機し再開
- 抽出器トレーニング スコープ
- 抽出結果をエクスポート
- ML サービス
- OCR
- OCR Contracts
- リリース ノート
- OCR コントラクトについて
- プロジェクトの対応 OS
- IOCRActivity インターフェイス
- OCRAsyncCodeActivity クラス
- OCRCodeActivity クラス
- OCRNativeActivity クラス
- Character クラス
- OCRResult クラス
- Word クラス
- FontStyles 列挙型
- OCRRotation 列挙型
- OCRCapabilities クラス
- OCRScrapeBase クラス
- OCRScrapeFactory クラス
- ScrapeControlBase クラス
- ScrapeEngineUsages 列挙型
- ScrapeEngineBase
- ScrapeEngineFactory クラス
- ScrapeEngineProvider クラス
- OmniPage
- PDF
- [リストから削除済] ABBYY
- [リストから削除済] ABBYY Embedded
ドキュメント データを抽出
UiPath.IntelligentOCR.StudioWeb.Activities.ExtractDocumentDataWithDocumentData<UiPath.IntelligentOCR.StudioWeb.Activities.DataExtraction.ExtendedExtractionResultForDocumentData>
前提条件
[ドキュメント データを抽出] アクティビティには、[ドキュメント データ] または [ファイル] のいずれかの種類の入力オブジェクトが必要です。このアクティビティを使用するユース ケースとしては、Document Data 型のオブジェクトを生成する [ドキュメントを分類] アクティビティの後に実行することが考えられます。
入力オプション
- ドキュメント データ - [ドキュメントを分類] アクティビティから
- ファイル - [ファイル/フォルダーを取得] アクティビティまたは [最新のメールを取得] アクティビティから
生成 AI モデルでサポートされている言語
生成 AI モデルでサポートされている言語は、使用されている OCR エンジンと同じであり、プロジェクトによって異なります。定義済みのプロジェクトの場合、使用される OCR エンジンは UiPath Document OCR です。詳しくは、「OCR でサポートされている言語」をご覧ください。
アクティビティで使用されるモデル
[ドキュメント データを抽出] アクティビティでは以下を使用します。- すぐに使えるモデルのパブリック エンドポイント
- Document Understanding アプリのプロジェクトにデプロイされたカスタム ML モデル
- 生成 AI による抽出モデル
デザイナー パネル
- プロジェクト - ドロップダウン リストからお使いの Document Understanding プロジェクトを選択する必要があります。利用可能なオプションは次のとおりです。
- Predefined - 既定のプロジェクトです。
- カスタム プロジェクトは、Document Understanding に移動して作成できます。
注: テナントに 500 を超えるプロジェクトを作成し、[ドキュメント データを抽出] アクティビティを使用した場合、UiPath Studio または Studio Web には、最初の 500 を超えるプロジェクトは表示されません。したがって、これらのプロジェクトは使用できません。
- 抽出器 - 現在のプロジェクトの抽出器を選択します。
- [Predefined] プロジェクトの場合、次の 2 つの選択肢があります。
- ML パッケージを選択します。使用可能な事前トレーニング済みモデルのリストについては、「すぐに使えるモデル」をご覧ください。
注: [ドキュメント データを抽出] アクティビティは、選択した抽出器でドキュメントの種類を上書きします。これは、生成モデルには適用されません。
- [Generative Extractor] を選択します。
注: 生成 AI 抽出器に送信された情報は、LLM モデル インスタンスに送られます。このインスタンスは公開されておらず、送信されたデータは保存されることもトレーニング目的で使用されることもありません。重要:
この機能は現在、監査プロセスの一部であり、レビューが完了するまで FedRAMP 承認の一部とは見なされません。現在レビュー中の機能の完全なリストについては、こちらをご覧ください。
- ML パッケージを選択します。使用可能な事前トレーニング済みモデルのリストについては、「すぐに使えるモデル」をご覧ください。
- [Predefined] プロジェクトの場合、次の 2 つの選択肢があります。
- プロンプト - [生成] オプションを選択した場合に表示されます。抽出対象のフィールドを識別するためのプロンプトです。キーと値のペアとして指定します。キーはフィールドの名前を、値はフィールドの説明を表します。抽出器が対象値を識別するのに役立ちます。このフィールドをクリックすると、次のオプションがペアになったプロンプトが表示されます。
- フィールド名 - 抽出するフィールド名 (例: 期限) を入力する必要があります (最大 30 文字)。
- 生成プロンプト - 生成 AI 抽出器の入力としてプロンプトを入力する必要があります。最大 1000 文字を入力できます。応答 (抽出結果) は「コンプリーション」とも呼ばれ、700 単語に制限されています。つまり、1 つのプロンプトあたりの抽出結果が 700 単語を超えることはできません。抽出要件がこの制限を超える場合は、ドキュメントを複数のページに分割して個別に処理し、後で結果を結合できます。
ヒント: 生成 AI のプロンプトの使用方法に関する効果的な実践については、「生成 AI 抽出器 - 効果的な実践」ページをご覧ください。 - 入力ファイル - ファイル自体、またはワークフローで他の「Document Understanding」系アクティビティ ([ドキュメントを分類] など) を使用している場合はそのドキュメント データを指定する必要があります。
重要: 1 つのファイルに含めることができる最大ページ数は 500 です。この制限を超えるファイルは抽出できません。
プロパティ パネル
入力
- タイムアウト (秒) - 生成 AI モデルへの呼び出しの最大実行時間 (秒単位) です。このタイムアウト値を超えると、遅延やハングを防ぐために操作が自動的に終了されます。このプロパティは、[生成 AI 抽出器] が抽出器として選択されている場合にのみ表示されます。
- 自動検証 - 自動検証を有効化する場合に使用します。データ抽出で得られた結果を生成モデルに対して検証する場合に便利な機能です。[自動検証] フィールドの既定値は
False
です。- 信頼度のしきい値 - [自動検証] を有効化すると表示されます。しきい値を下回る抽出結果は、生成 AI による抽出モデルの結果と比較されます。結果が同じ場合、抽出結果の信頼度の値はしきい値に合わせて調整されます。指定可能なしきい値の範囲は 0 から 100 です。
値を 0 に設定すると、検証は適用されません。ただし、特定の値 (0 から 100) を設定すると、その値を下回るすべての抽出結果がチェックされます。たとえば、信頼度のしきい値を 80% に設定すると、信頼度が 80% を下回るフィールドに生成 AI による検証が適用されます。
注: 自動検証は、専用の抽出モデルでのみ利用できます。
- 信頼度のしきい値 - [自動検証] を有効化すると表示されます。しきい値を下回る抽出結果は、生成 AI による抽出モデルの結果と比較されます。結果が同じ場合、抽出結果の信頼度の値はしきい値に合わせて調整されます。指定可能なしきい値の範囲は 0 から 100 です。
- データ型を生成 -
True
に設定すると、選択した抽出器に基づいて出力が生成され、IDocumentData<ExtractorType>
オブジェクトが生成されます。また、False
に設定すると、データ生成をスキップして汎用IDocumentData<DictionaryData>
オブジェクトが生成されます。2 つのオブジェクトの種類の詳細と制限については、「ドキュメント データ」をご覧ください。
出力
- ドキュメント データ - ファイルから抽出されるすべてのフィールド データです。情報は、[ドキュメントを分類] アクティビティから受け取ることもできます。
ドキュメント データの仕組み、および単一値フィールドと複数値フィールドで抽出結果を使用する方法については、「ドキュメント データ」をご覧ください。
[ドキュメント データを抽出] アクティビティの生成機能をすぐに使用するには、以下の手順を実行してください。
- [ドキュメント データを抽出] アクティビティを追加します。
- [プロジェクト] ドロップダウン リストから [Predefined] を選択します。
- [抽出器] で [生成 AI 抽出器] を選択します。
[プロンプト] プロパティがアクティビティの本体に表示されます。
- [プロンプト] フィールドに、指示をディクショナリのキーと値のペアとして入力します。ここで、
- キーとは、[フィールド名] で入力する値のことです (例: 電子メール アドレス)。
- 値とは、[生成プロンプト] で入力する値のことで、対応する値を識別するために生成 AI 抽出器が使用する説明です。
以下の表に、キーと値のペアのサンプルをいくつか示してありますので、確認してください。
表 1. 生成 AI 抽出器のキーと値のペアのプロンプトの例 フィールド名 生成プロンプト 名前 候補者の名前は何ですか? 現在の仕事 候補者の名前は何ですか? 雇用主 候補者の現在の雇用主は何ですか? 図 1. 生成 AI 抽出器のキーと値のペアのプロンプト