Document Understanding ガイド

デリバリー:

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

最終更新日時 2025年2月4日

ドキュメントをインポートする

AI Center では、特殊文字を含むファイル名はサポートされていません。したがって、ドキュメントを Data Manager にインポートする前に、名前にアルファベット、数字、ダッシュ (-)、アンダーバー (_) のみが含まれていることを確認するよう強くお勧めします。

Data Manager でサポートされているインポートは 4 種類あります。

スキーマのインポート
未加工ドキュメントのインポート
Data Manager データセットのインポート
マシンラーニング抽出器トレーナーデータセットのインポート (プレビュー機能)

スキーマのインポート

既存のインスタンスと同じスキーマを使用して Data Manager の新しいインスタンスを起動する場合は、以下の手順を実行できます。

既存のインスタンスのフィルターにランダムな文字列を入力します。それにより、ビューにドキュメントが残らなくなります。
[エクスポート] ボタンをクリックします。zip ファイルがエクスポートされます。
Data Manager の新しいインスタンスに zip ファイルを直接インポートします (展開しない)。スキーマがインポートされます。

このドキュメントの「Data Manager を設定する」セクションに記載されている事前定義されたスキーマのいずれか 1 つも使用できます。

未加工ドキュメントのインポート

ラベル付け用にインポートできるドキュメントの種類は .pdf、.tiff、.png、.jpg です。手順は次のとおりです。

[インポート] をクリックします。[データをインポート] ウィンドウが表示されます。
[バッチ名] フィールドにバッチ名を入力します。これにより、後から [フィルター] ドロップダウンを使用して、これらのドキュメントを簡単にフィルター処理して見つけることができます。
このドキュメントバッチを ML モデルのトレーニングに使用する場合は、[これをテストセットにする] チェックボックスをオフのままにします。
このドキュメントバッチを ML モデルの評価 (ML モデルのパフォーマンスの測定) に使用する場合は、[これをテストセットにする] チェックボックスをオンにします。これにより、データがトレーニングパイプラインにより無視されるようになります。
[ファイルを参照またはドロップ] セクションに、1 つのファイルまたはファイルのセットをアップロードするか、ドラッグアンドドロップします。
すべてのファイルの種類が受け入れられます。アプリケーションによってファイルが検査され、インポート可能なファイルの数が示されます。.zip ファイルも受け入れられます。アプリケーションによってアーカイブが展開されます。フォルダーを再帰的に確認して内部のファイルがすべて検出されます。

別の Data Manager インスタンスからエクスポートされたデータセットの zip ファイルをインポートすることにより、ラベル付きのドキュメントがインポートされます。これは、データセットスキーマが同じ場合、または Data Manager の既存のスキーマのサブセットである場合にのみ機能します。

Data Manager データセットのインポート

Data Manager の別のインスタンスで以前にラベル付けされたデータセットをインポートするには、最初にエクスポートされた zip ファイルを取得し、新しい Data Manager インスタンスに直接インポートする必要があります。新しい Data Manager インスタンスが完全に空の (データおよびフィールドが定義されていない) 場合は、データとスキーマの両方がインポートされます。新しい Data Manager インスタンスで既にフィールドが定義されている場合は、新たにインポートされたデータセットにも同じフィールドか、それらのフィールドのサブセットが必要です。そうでない場合、インポートは拒否されます。

検証ステーションのデータセットのインポート (プレビュー機能)

RPA ワークフローは既存の ML モデルを使用してドキュメントを処理するので、ドキュメントによっては、[検証ステーション] アクティビティ (有人ボットで、またはブラウザーで Orchestrator Action Center を使用して利用可能) を使用した人間による検証が必要なことがあります。

検証ステーションで生成された検証済みデータは、[マシンラーニング抽出器トレーナー] アクティビティを使用してエクスポートできます。また、ここで説明する機能を使用して ML モデルをトレーニングするために使用できます。

必要な手順は以下のとおりです。

<Trainer/Output/Folder> というパス (空のフォルダーパスを使用) のフォルダーにデータを出力するよう、マシンラーニング抽出器トレーナーを設定します。
検証ステーションとマシンラーニング抽出器トレーナーを含む RPA ワークフローを実行します。
マシンラーニング抽出器トレーナーによって、出力フォルダー内に documents、metadata、predictions という名前の 3 つのサブフォルダーが作成されます。
<Trainer/Output/Folder> を圧縮して zip ファイルを作成します (TrainerOutputFolder.zip など)。
zip ファイルを Data Manager にインポートします。Data Manager は、インポートされたファイルにマシンラーニング抽出器トレーナーによって作成されたデータが含まれていることを検知すると、そのデータをインポートします。
通常どおりデータをエクスポートし、AI Center にアップロードします。
トレーニングパイプラインまたはフルパイプラインを起動し、微調整する ML パッケージとバージョンを選択します。