通知を受け取る

UiPath Document Understanding

UiPath Document Understanding

ドキュメントをインポートする

[データをインポート] ダイアログ ボックスを使用すると、ラベル付けするまたは変更する新しいドキュメントを簡単にインポートできます。

管理バーの [インポート] ボタン importimport をクリックします。

ダイアログ ボックスには、次のコントロールが含まれます。

  • [バッチ名] テキスト フィールド - エクスポート名の入力は必須です。入力しないと、[ファイルを参照またはドロップ] セクションが無効化されて表示されます。有効な名前は最大 24 文字で、特殊文字を含めることはできません。
  • [これを評価セットにする] チェックボックス - オンにすると、そのデータセットはトレーニング目的で使用されます。
  • [サイズの大きなドキュメントのインポートを有効化] チェックボックス - オンにすると、150 ページを超えるドキュメントをアップロードできます。
  • [ファイルを参照またはドロップ] セクション - [アップロードするファイルを参照] をクリックしてディレクトリを移動するか、フレーム内にファイルをドラッグ アンド ドロップします。
  • [ステータス] セクション - [(以前のインポート ログを読み込み)] をクリックすると、最新のインポートのステータスを確認できます。データのアップロード時、[ステータス] セクションにはファイルの概要を含むメッセージが表示され、[はい] をクリックしてインポートを続行するか、[キャンセル] をクリックしてインポートを中止するかを選択するよう求められます。
846846

❗️

複数ページのドキュメントをラベル付けする

Document Manager の v2021.10 リリースでは、複数ページのドキュメントのラベル付けがサポートされており、各ページが個別にラベル付けされていた以前のリリースとは大幅に異なります。複数ページのドキュメントのラベル付けおよびエクスポートを行う際は、各ドキュメントが 1 つの論理的なドキュメントであることを前提としています。たとえば、6 ページのドキュメントに 6 ページの請求書が 1 つ含まれていても問題はありませんが、2 ページずつの異なる請求書が 3 つ含まれていてはいけません。これは、評価セットの場合に特に重要です。

この要件は、 後方互換性のあるエクスポートの場合は関係ありません。

インポートの種類

Document Manager でサポートされているインポートは次の 4 種類です。

スキーマのインポート


既存のセッションと同じスキーマを使用して新しい Document Manager セッションを起動する場合は、次の手順を実行します。

  1. 管理バーの [エクスポート] ボタン exportexport をクリックします。
  2. [ファイルをエクスポート] ダイアログ ボックスで、[スキーマ] オプションのチェックボックスをオンにします。
  3. ダイアログ ボックス内の [エクスポート] ボタンをクリックします。.zip ファイルがエクスポートされます。
  4. 管理バーの [インポート] ボタン importimport をクリックします。
  5. .zip ファイルを新しい Document Manager セッションに直接アップロードまたはドラッグ アンド ドロップします (展開しない)。この手順では、 事前定義されたスキーマをアップロードすることもできます。
  6. [ステータス] セクションで [はい] をクリックしてインポートを続行します。スキーマがインポートされます。

You could also use one of the predefined schemas provided in the Use a Predefined Schema page.
Schema import can also be applied for multi-value fields.

❗️

警告:

複数値フィールドは v2022.10 以上のモデルにのみ対応している点にご留意ください。

未加工ドキュメントのインポート


ラベル付け用にインポートできるドキュメントの種類は .pdf.tiff.png.jpg です。

.zip files are not supported for raw documents import.

OCR settings need to be configured before import.

以下の手順を実行します。

  1. [インポート] ボタン importimport をクリックします。[データをインポート] ダイアログ ボックスが表示されます。
  2. [バッチ名] フィールドにバッチ名を入力します。これにより、後から [検索] ドロップダウンを使用して、これらのドキュメントを簡単にフィルター処理して見つけることができます。
    • このドキュメント バッチを ML モデルのトレーニングに使用する場合は、[これを評価セットにする] チェックボックスをオフのままにします。
    • このドキュメント バッチを ML モデルの評価 (例: パフォーマンスの測定) に使用する場合は、[これを評価セットにする] チェックボックスをオンにします。これにより、データがトレーニング パイプラインにより無視されるようになります。
  3. 150 ページを超えるドキュメントがある場合は、[サイズの大きなドキュメントのインポートを有効化] チェック ボックスをオンにします。それ以外の場合は、チェックボックスをオフのままにします。
  4. [ファイルを参照またはドロップ] セクションに、1 つのファイルまたはファイルのセットをアップロードするか、ドラッグ アンド ドロップします。
  5. [はい] をクリックします。ファイルまたはファイルのセットがインポートされます。
400400

Document Manager のデータセットのインポート


別の Document Manager セッションで以前にラベル付けされたデータセットをインポートするには、最初にエクスポートされた .zip ファイルを取得し、新しい Document Manager インスタンスに直接インポートする必要があります。

新しい Document Manager インスタンスが完全に空の場合 (データがなく、フィールドが定義されていない)、ラベル付けされたドキュメントとスキーマの両方がインポートされます。

新しい Data Manager インスタンスで既にフィールドが定義されている場合は、新しくインポートするデータセットにも同じフィールドか、それらのフィールドのサブセットが含まれている必要があります。そうでない場合、インポートは拒否されます。

サイズの大きいデータセットを分割する

To import Document Manager datasets larger than 1GB or that have more than 1500 files, we recommend you to use this script which splits the .zip files into multiple .zip files that are smaller than 1GB and that have less than 1500 files.

検証ステーションのデータセットのインポート


As your RPA workflow processes documents using an existing ML model, some documents may require human validation using the Validation Station activity (available on attended bots or in the browser using Orchestrator Action Center).

The validated data generated in Validation Station can be exported using Machine Learning Extractor Trainer activity and can be used to train ML models using the feature described below.

📘

注:

検証ステーションのデータセットのインポートでは、スキーマを定義する必要があります。

以下の手順を実行します。

  1. [マシン ラーニング抽出器トレーナー] アクティビティのデータの出力先を <Trainer/Output/Folder> というパス (任意の空のフォルダー パスを使用) のフォルダーに設定します。
  2. [検証ステーションを提示] アクティビティと [マシン ラーニング抽出器トレーナー] アクティビティを含む RPA ワークフローを実行します。
  3. [マシン ラーニング抽出器トレーナー] アクティビティは、出力フォルダー内にドキュメント、メタデータ、予測の 3 つのサブフォルダーを作成します。
  4. <Trainer/Output/Folder> を圧縮して、.zip ファイルを取得します (例: TrainerOutputFolder.zip)。
  5. .zip ファイルを Document Manager にインポートします。Document Manager は、インポートされたファイルに [マシン ラーニング抽出器トレーナー] アクティビティによって作成されたデータが含まれていることを検出し、それに応じてデータをインポートします。

データセットで必要なフィールドが見つからない場合は、インポート ダイアログ ボックスにエラー メッセージが表示されます。

752752

2 か月前に更新


ドキュメントをインポートする


改善の提案は、API リファレンスのページでは制限されています

改善を提案できるのは Markdown の本文コンテンツのみであり、API 仕様に行うことはできません。