- 基本情報
- フレームワーク コンポーネント
- ML パッケージ
- パイプライン
- データ マネージャー (Data Manager)
- OCR サービス
- Automation Suite にデプロイされた Document Understanding
- AI Center スタンドアロンにデプロイされた Document Understanding
- ディープ ラーニング
- ライセンス
- 参照
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Document Understanding ガイド
ドキュメントをインポートする
[データをインポート] ダイアログ ボックスを使用すると、ラベル付けするまたは変更する新しいドキュメントを簡単にインポートできます。
管理バーの [インポート] ボタン をクリックします。
ダイアログ ボックスには、次のコントロールが含まれます。
- [バッチ名] テキスト フィールド - エクスポート名の入力は必須です。入力しないと、[ファイルを参照またはドロップ] セクションが無効化されて表示されます。有効な名前は最大 24 文字で、特殊文字を含めることはできません。
- [これを評価セットにする] チェックボックス - オンにすると、そのデータセットは評価目的で使用されます。
- [サイズの大きなドキュメントのインポートを有効化] チェックボックス - オンにすると、150 ページを超えるドキュメントをアップロードできます。
- [ファイルを参照またはドロップ] セクション - [アップロードするファイルを参照] をクリックしてディレクトリを移動するか、フレーム内にファイルをドラッグ アンド ドロップします。
- [ステータス] セクション - [(以前のインポート ログを読み込み)] をクリックすると、最新のインポートのステータスを確認できます。データのアップロード時、[ステータス] セクションにはファイルの概要を含むメッセージが表示され、[はい] をクリックしてインポートを続行するか、[キャンセル] をクリックしてインポートを中止するかを選択するよう求められます。
重要:Data Manager のリリース v2021.10 では、複数ページのドキュメントのラベル付けがサポートされており、各ページが個別にラベル付けされていた以前のリリースとは大幅に変更されています。複数ページのドキュメントのラベル付けおよびエクスポートを行う際は、各ドキュメントが 1 つの論理的なドキュメントであることを前提としています。たとえば、6 ページのドキュメントに 6 ページの請求書が 1 つ含まれていても問題はありませんが、2 ページずつの異なる請求書が 3 つ含まれていてはいけません。これは、評価セットの場合に特に重要です。
この要件は、後方互換性のあるエクスポートの場合は関係ありません。
Data Manager でサポートされているインポートは 4 種類あります。
- スキーマのインポート
- 未加工ドキュメントのインポート (1 回のインポートあたり最大 2000 ページまたは 2 GB)
- Data Manager のデータセットのインポート (1 回のインポートで最大 2000 ページまたは 2 GB ページ)
- 検証ステーションのデータセットのインポート (1 回のインポートで最大 2000 ページまたは 2 GB ページ)
既存のセッションと同じスキーマを使用して新しい Data Manager セッションを起動する場合は、次の手順を実行します。
- 管理バーの [エクスポート] ボタン をクリックします。
- [ファイルをエクスポート] ダイアログ ボックスで、[スキーマ] オプションのチェックボックスをオンにします。
- ダイアログ ボックス内の [エクスポート] ボタンをクリックします。
.zip
ファイルがエクスポートされます。 - 管理バーの [インポート] ボタン をクリックします。
.zip
ファイルをアップロードするか、新しい Data Manager セッションに直接ドラッグ アンド ドロップします (展開しない)。この手順では、事前定義されたスキーマをアップロードすることもできます。- [ステータス] セクションで [はい] をクリックしてインポートを続行します。スキーマがインポートされます。
「事前定義されたスキーマを使用する」で提供されている事前定義済みのスキーマのいずれかを使用することもできます。
.pdf
、.tiff
、.png
、.jpg
です。
.zip
ファイルは、未加工ドキュメントのインポートではサポートされていません。- インポートを行う前に OCR の設定を行う必要があります。
以下の手順を実行します。
- [インポート] ボタン をクリックします。[データをインポート] ダイアログ ボックスが表示されます。
- [バッチ名] フィールドにバッチ名を入力します。これにより、後から [検索] ドロップダウンを使用して、これらのドキュメントを簡単にフィルター処理して見つけることができます。
- このドキュメント バッチを ML モデルのトレーニングに使用する場合は、[これを評価セットにする] チェックボックスをオフのままにします。
- このドキュメント バッチを ML モデルの評価 (例: パフォーマンスの測定) に使用する場合は、[これを評価セットにする] チェックボックスをオンにします。これにより、データがトレーニング パイプラインにより無視されるようになります。
- 150 ページを超えるドキュメントがある場合は、[サイズの大きなドキュメントのインポートを有効化] チェック ボックスをオンにします。それ以外の場合は、チェックボックスをオフのままにします。
- [ファイルを参照またはドロップ] セクションに、1 つのファイルまたはファイルのセットをアップロードするか、ドラッグ アンド ドロップします。
- [はい] をクリックします。ファイルまたはファイルのセットがインポートされます。
.zip
ファイルを取得し、新しい Data Manager インスタンスに直接インポートする必要があります。
新しい Data Manager インスタンスが完全に空の場合 (データがなく、フィールドが定義されていない)、ラベル付けされたドキュメントとスキーマの両方がインポートされます。
新しい Data Manager インスタンスで既にフィールドが定義されている場合は、新たにインポートされたデータセットにも同じフィールドか、それらのフィールドのサブセットが必要です。そうでない場合、インポートは拒否されます。
サイズの大きいデータセットを分割する
.zip
ファイルを 1 GB 未満で 1500 個未満のファイルを含む、複数の .zip
ファイルに分割します。
RPA ワークフローは既存の ML モデルを使用してドキュメントを処理するので、ドキュメントによっては、[検証ステーション] アクティビティ (有人ボットで、またはブラウザーで Orchestrator Action Center を使用して利用可能) を使用した人間による検証が必要なことがあります。
検証ステーションで生成された検証済みデータは、[マシン ラーニング抽出器トレーナー] アクティビティを使用してエクスポートできます。また、以下で説明する機能を使用して ML モデルをトレーニングするために使用できます。
以下の手順を実行します。
- [マシン ラーニング抽出器トレーナー] アクティビティのデータの出力先を
<Trainer/Output/Folder>
というパス (任意の空のフォルダー パスを使用) のフォルダーに設定します。 - [検証ステーションを提示] アクティビティと [マシン ラーニング抽出器トレーナー] アクティビティを含む RPA ワークフローを実行します。
- [マシン ラーニング抽出器トレーナー] アクティビティは、出力フォルダー内にドキュメント、メタデータ、予測の 3 つのサブフォルダーを作成します。
<Trainer/Output/Folder>
を圧縮して、.zip
ファイルを取得します (例: TrainerOutputFolder.zip)。.zip
ファイルを Data Manager にインポートします。Data Manager は、インポートされたファイルに [マシン ラーニング抽出器トレーナー] アクティビティによって作成されたデータが含まれていることを検出し、それに応じてデータをインポートします。
データセットで必要なフィールドが見つからない場合は、インポート ダイアログ ボックスにエラー メッセージが表示されます。