Document Understanding - ドキュメントをインポートする

document-understanding

2024.10

false

Document Understanding ガイド

重要 :

このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

ドキュメントをインポートする

管理バーからアクセス可能な [データをインポート] ダイアログを使用して、ドキュメントを Document Manager にインポートしてラベル付けやリビジョンを行います。

[データをインポート] ダイアログボックスを使用すると、ラベル付けするまたは変更する新しいドキュメントを簡単にインポートできます。

管理バーの [インポート] ボタンを選択します。

ダイアログボックスには、次のコントロールが含まれます。

[バッチ名] テキストフィールド - エクスポート名の入力は必須です。入力しないと、[ファイルを参照またはドロップ] セクションが無効化されて表示されます。有効な名前は最大 24 文字で、特殊文字を含めることはできません。
[これを評価セットにする] チェックボックス - オンにすると、そのデータセットは評価目的で使用されます。
[ファイルを参照またはドロップ] セクション - [アップロードするファイルを参照] を選択してディレクトリ内を移動するか、フレーム内にファイルをドラッグアンドドロップします。
[ステータス] セクション - [(以前のインポートログを読み込み)] を選択すると、最新のインポートのステータスを確認できます。データのアップロード時、[ステータス] セクションにはファイルの概要を含むメッセージが表示され、[はい] を選択してインポートを続行するか、[キャンセル] を選択してインポートを中止するかを選択するよう求められます。

インポートの種類

Document Manager でサポートされているインポートは次の 4 種類です。

スキーマのインポート
未加工ドキュメントのインポート (1 回のインポートあたり最大 2,000 ページ、4,000 MiB)
Document Manager のデータセットのインポート (1 回のインポートあたり 4,000 MiB)
検証ステーションのデータセットのインポート (1 回のインポートあたり最大 2,000 ページ、4,000 MiB)

スキーマのインポート

既存のセッションと同じスキーマを使用して新しい Document Manager セッションを起動する場合は、次の手順を実行します。

管理バーの [エクスポート] ボタンを選択します。
[ファイルをエクスポート] ダイアログボックスで、[スキーマ] オプションのチェックボックスをオンにします。
ダイアログボックス内の [エクスポート] ボタンを選択します。.zip ファイルがエクスポートされます。
管理バーの [インポート] ボタンを選択します。
.zip ファイルをアップロードするか、新しい Document Manager セッションに直接ドラッグアンドドロップします (展開しない)。この手順では、事前定義されたスキーマをアップロードすることもできます。
[ステータス] セクションで [はい] を選択してインポートを続行します。スキーマがインポートされます。

スキーマのインポートは複数値フィールドにも対応します。

重要:

複数値フィールドは v2022.10 以降のモデルにのみ対応している点にご留意ください。

未加工ドキュメントのインポート

ラベル付け用にインポートできるドキュメントの種類は .pdf、.tiff、.png、.jpg です。

.zip ファイルは、未加工ドキュメントのインポートではサポートされていません。

インポートを行う前に OCR の設定を行う必要があります。

[ インポート ] ボタンを選択します。[ データをインポート ] ダイアログボックスが表示されます。
[バッチ名] フィールドにバッチ名を入力します。これにより、後から [検索] ドロップダウンを使用して、これらのドキュメントを簡単にフィルター処理して見つけることができます。
- このドキュメントバッチを ML モデルのトレーニングに使用する場合は、[これを評価セットにする] チェックボックスをオフのままにします。
- このドキュメントバッチを ML モデルの評価 (例: パフォーマンスの測定) に使用する場合は、[これを評価セットにする] チェックボックスをオンにします。これにより、データがトレーニングパイプラインにより無視されるようになります。
[ファイルを参照またはドロップ] セクションに、1 つのファイルまたはファイルのセットをアップロードするか、ドラッグアンドドロップします。
[ はい] を選択します。ファイルまたは一連のファイルがインポートされます。

Document Manager のデータセットのインポート

別の Document Manager セッションで以前にラベル付けされたデータセットをインポートするには、最初にエクスポートされた .zip ファイルを取得し、新しい Document Manager インスタンスに直接インポートする必要があります。

新しい Document Manager インスタンスが完全に空の場合 (データがなく、フィールドが定義されていない)、ラベル付けされたドキュメントとスキーマの両方がインポートされます。

新しい Data Manager インスタンスで既にフィールドが定義されている場合は、新しくインポートするデータセットにも同じフィールドか、それらのフィールドのサブセットが含まれている必要があります。そうでない場合、インポートは拒否されます。

Automation Cloud™ 環境からデータベースをエクスポートした後、オンプレミスのデプロイにインポートする場合は、以下の手順を実行する必要があります。

データセットファイルを展開します。
アーカイブの scheman.json ファイルを編集します。
json ファイルからすべての display_name プロパティを削除し、保存します。
データセットを圧縮し、オンプレミスセッションにインポートします。

サイズの大きいデータセットを分割する

1 GB を超える、または 1500 個を超えるファイルを含む Document Manager のデータセットをインポートするには、こちらのスクリプトを使用することをお勧めします。このスクリプトを使用すると、 .zip ファイルを 1 GB 未満で 1500 個未満のファイルを含む、複数の .zip ファイルに分割します。

検証ステーションのデータセットのインポート

RPA ワークフローは既存の ML モデルを使用してドキュメントを処理するので、ドキュメントによっては、[検証ステーション] アクティビティ (有人ボットで、またはブラウザーで Orchestrator Action Center を使用して利用可能) を使用した人間による検証が必要なことがあります。

検証ステーションで生成された検証済みデータは、[マシンラーニング抽出器トレーナー] アクティビティを使用してエクスポートできます。また、ML モデルのトレーニングに使用できます。

注:

検証ステーションのデータセットのインポートでは、スキーマを定義する必要があります。

[マシンラーニング抽出器トレーナー] アクティビティのデータの出力先を <Trainer/Output/Folder> というパス (任意の空のフォルダーパスを使用) のフォルダーに設定します。
[検証ステーションを提示] アクティビティと [マシンラーニング抽出器トレーナー] アクティビティを含む RPA ワークフローを実行します。
[マシンラーニング抽出器トレーナー] アクティビティは、出力フォルダー内にドキュメント、メタデータ、予測の 3 つのサブフォルダーを作成します。
<Trainer/Output/Folder> を圧縮して、.zip ファイルを取得します (例: TrainerOutputFolder.zip)。
.zip ファイルを Document Manager にインポートします。Document Manager は、インポートされたファイルに [マシンラーニング抽出器トレーナー] アクティビティによって作成されたデータが含まれていることを検出し、それに応じてデータをインポートします。

データセットで必要なフィールドが見つからない場合は、インポートダイアログボックスにエラーメッセージが表示されます。

インポートの種類
スキーマのインポート
未加工ドキュメントのインポート
Document Manager のデータセットのインポート
検証ステーションのデータセットのインポート

このページは役に立ちましたか?

前へフィールドを作成および設定する

次へドキュメントにラベル付けする

インポートの種類​

スキーマのインポート​

未加工ドキュメントのインポート​

Document Manager のデータセットのインポート​

サイズの大きいデータセットを分割する​

検証ステーションのデータセットのインポート​