activities
latest
false
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。 新しいコンテンツの翻訳は、およそ 1 ~ 2 週間で公開されます。
UiPath logo, featuring letters U and I in white

Document Understanding アクティビティ

最終更新日時 2024年12月5日

ドキュメント データを抽出

UiPath.IntelligentOCR.StudioWeb.Activities.ExtractDocumentDataWithDocumentData<UiPath.IntelligentOCR.StudioWeb.Activities.DataExtraction.ExtendedExtractionResultForDocumentData>

説明

入力ファイルまたは Document Data オブジェクトからデータを抽出し、結果を Document Data オブジェクトに格納します。

はじめる前に

前提条件

[ドキュメント データを抽出] アクティビティには、[ドキュメント データ] または [ファイル] のいずれかの種類の入力オブジェクトが必要です。このアクティビティを使用するユース ケースとしては、Document Data 型のオブジェクトを生成する [ドキュメントを分類] アクティビティの後に実行することが考えられます。

入力オプション
[ドキュメント データを抽出] アクティビティは、入力として次のいずれかを受け取ります。
  • ドキュメント データ - [ドキュメントを分類] アクティビティから
  • ファイル - [ファイル/フォルダーを取得] アクティビティまたは [最新のメールを取得] アクティビティから
生成 AI モデルでサポートされている言語

生成 AI モデルでサポートされている言語は、使用されている OCR エンジンと同じであり、プロジェクトによって異なります。定義済みのプロジェクトの場合、使用される OCR エンジンは UiPath Document OCR です。詳しくは、「OCR でサポートされている言語」をご覧ください。

アクティビティで使用されるモデル
[ドキュメント データを抽出] アクティビティでは以下を使用します。
  • すぐに使えるモデルのパブリック エンドポイント
  • Document Understanding アプリのプロジェクトにデプロイされたカスタム ML モデル
  • 生成 AI による抽出モデル

プロジェクトの対応 OS

Windows | クロスプラットフォーム

構成

デザイナー パネル
  • 入力ファイル - ファイル自体、またはワークフローで他の「Document Understanding」系アクティビティ ([ドキュメントを分類] など) を使用している場合はそのドキュメント データを指定する必要があります。
    重要: 1 つのファイルに含めることができる最大ページ数は 500 です。この制限を超えるファイルは抽出できません。
  • プロジェクト - ドロップダウン リストからお使いの Document Understanding プロジェクトを選択する必要があります。利用可能なオプションは次のとおりです。
    • 定義済み – 標準シナリオに推奨される、事前トレーニング済みの特殊なモデルを使用するクラシック プロジェクトの種類です。
    • 接続先のテナントおよびフォルダーの既存のプロジェクト
    • カスタム プロジェクトは、Document Understanding に移動して作成できます。

      詳細については、 モデル構築の概要に関するページをご覧ください。

    注: テナントに 500 を超えるプロジェクトを作成し、[ドキュメント データを抽出] アクティビティを使用した場合、UiPath Studio または Studio Web には、最初の 500 を超えるプロジェクトは表示されません。したがって、これらのプロジェクトは使用できません。
  • 抽出器 - プロジェクトを選択した後、使用する抽出器を選択することもできます。
    • [Predefined] プロジェクトの場合、次の 2 つの選択肢があります。
      • ML パッケージを選択します。使用可能な事前トレーニング済みモデルのリストについては、「すぐに使えるモデル」をご覧ください。
        注: [ドキュメント データを抽出] アクティビティは、選択した抽出器でドキュメントの種類を上書きします。これは、生成モデルには適用されません。
      • [Generative Extractor] を選択します。
        注: 生成 AI 抽出器に送信された情報は、LLM モデル インスタンスに送られます。このインスタンスは公開されておらず、送信されたデータは保存されることもトレーニング目的で使用されることもありません。
        重要:

        この機能は現在のところ監査プロセスの一部であり、レビューが完了するまで FedRAMP 承認の一部と見なすべきではありません。現在レビュー中の機能の完全なリストについては、こちらをご覧ください。

  • プロンプト - [ Generative] オプションを選択した場合に表示されます。 抽出対象のフィールドを識別するためのプロンプトです。キーと値のペアとして指定します。キーはフィールドの名前を、値はフィールドの説明を表します。抽出器が対象値を識別するのに役立ちます。 フィールドを選択すると、次のオプションがペアになったプロンプトが表示されます。
    • フィールド名 - 抽出するフィールド名 (例: 期限) を入力する必要があります (最大 30 文字)。
    • 生成プロンプト - 生成 AI 抽出器の入力としてプロンプトを入力する必要があります。最大 1000 文字を入力できます。応答 (抽出結果) は「コンプリーション」とも呼ばれ、700 単語に制限されています。つまり、1 つのプロンプトあたりの抽出結果が 700 単語を超えることはできません。抽出要件がこの制限を超える場合は、ドキュメントを複数のページに分割して個別に処理し、後で結果を結合できます。
    ヒント: 生成 AI のプロンプトの使用方法に関する効果的な実践については、「生成 AI 抽出器 - 効果的な実践」ページをご覧ください。
  • バージョン (プレビュー) - 既存の Document Understanding モダン プロジェクトを使用する場合は、このプロパティを使用します。 データを処理するプロジェクトのバージョンに対応するタグを選択します。 たとえば、バージョン 3 に割り当てられた Production タグを選択すると、アクティビティは実稼働環境でプロジェクトのバージョン 3 のデータを処理します。

    [バージョン] の既定値は [ステージング] です。選択したプロジェクトに ステージング タグが存在しない場合、既定値は Production です。

    バージョンについて詳しくは、「 モデルのパブリッシュ」をご覧ください。

  • ドキュメントの種類 (プレビュー) - [バージョン ] フィールドからタグを選択すると、アクティビティは、選択したプロジェクトの関連バージョンから最初にデプロイされたドキュメントの種類を自動的に選択します。 さらに、このアクティビティには、選択したドキュメントの種類に関連する抽出フィールドも表示されます。
プロパティ パネル

入力

  • タイムアウト (秒) - 生成 AI モデルへの呼び出しの最大実行時間 (秒単位) です。このタイムアウト値を超えると、遅延やハングを防ぐために操作が自動的に終了されます。このプロパティは、[生成 AI 抽出器] が抽出器として選択されている場合にのみ表示されます。
  • 自動検証 - 自動検証を有効化する場合に使用します。データ抽出で得られた結果を生成モデルに対して検証する場合に便利な機能です。[自動検証] フィールドの既定値は False です。
    • 信頼度のしきい値 - [自動検証] を有効化すると表示されます。しきい値を下回る抽出結果は、生成 AI による抽出モデルの結果と比較されます。結果が同じ場合、抽出結果の信頼度の値はしきい値に合わせて調整されます。指定可能なしきい値の範囲は 0 から 100 です。

      値を 0 に設定すると、検証は適用されません。ただし、特定の値 (0 から 100) を設定すると、その値を下回るすべての抽出結果がチェックされます。たとえば、信頼度のしきい値を 80% に設定すると、信頼度が 80% を下回るフィールドに生成 AI による検証が適用されます。

      注: 自動検証は、専用の抽出モデルでのみ利用できます。
  • データ型を生成 - True に設定すると、選択した抽出器に基づいて出力が生成され、IDocumentData<ExtractorType> オブジェクトが生成されます。また、False に設定すると、データ生成をスキップして汎用 IDocumentData<DictionaryData> オブジェクトが生成されます。

    2 つのオブジェクトの種類の詳細と制限については、「ドキュメント データ」をご覧ください。

出力
  • ドキュメント データ - ファイルから抽出されるすべてのフィールド データです。情報は、[ドキュメントを分類] アクティビティから受け取ることもできます。

    ドキュメント データの仕組み、および単一値フィールドと複数値フィールドで抽出結果を使用する方法については、「ドキュメント データ」をご覧ください。

生成 AI 抽出器を使用する

[ドキュメント データを抽出] アクティビティの生成機能をすぐに使用するには、以下の手順を実行してください。

  1. [ドキュメント データを抽出] アクティビティを追加します。
  2. [プロジェクト] ドロップダウン リストから [Predefined] を選択します。
  3. [抽出器][生成 AI 抽出器] を選択します。

    [プロンプト] プロパティがアクティビティの本体に表示されます。

  4. [プロンプト] フィールドに、指示をディクショナリのキーと値のペアとして入力します。ここで、
    • キーとは、[フィールド名] で入力する値のことです (例: 電子メール アドレス)。
    • とは、[生成プロンプト] で入力する値のことで、対応する値を識別するために生成 AI 抽出器が使用する説明です。

      以下の表に、キーと値のペアのサンプルをいくつか示してありますので、確認してください。

    表 1. 生成 AI 抽出器のキーと値のペアのプロンプトの例
    フィールド名生成プロンプト
    名前候補者の名前は何ですか?
    現在の仕事候補者の名前は何ですか?
    雇用主候補者の現在の雇用主は何ですか?
    図 1. 生成 AI 抽出器のキーと値のペアのプロンプト

このページは役に立ちましたか?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
Uipath Logo White
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.