Document Understanding
2020.10
バナーの背景画像
非推奨
Document Understanding ガイド
最終更新日 2024年2月28日

ドキュメントをインポートする

AI Center では、特殊文字を含むファイル名はサポートされていません。したがって、ドキュメントを Data Manager にインポートする前に、名前にアルファベット、数字、ダッシュ (-)、アンダーバー (_) のみが含まれていることを確認するよう強くお勧めします。

Data Manager でサポートされているインポートは 4 種類あります。

  • スキーマのインポート
  • 未加工ドキュメントのインポート
  • Data Manager データセットのインポート
  • マシン ラーニング抽出器トレーナー データセットのインポート (プレビュー機能)

スキーマのインポート

既存のインスタンスと同じスキーマを使用して Data Manager の新しいインスタンスを起動する場合は、以下の手順を実行できます。

  1. 既存のインスタンスのフィルターにランダムな文字列を入力します。それにより、ビューにドキュメントが残らなくなります。
  2. [エクスポート] ボタンをクリックします。zip ファイルがエクスポートされます。
  3. Data Manager の新しいインスタンスに zip ファイルを直接インポートします (展開しない)。スキーマがインポートされます。

このドキュメントの「Data Manager を設定する」セクションに記載されている事前定義されたスキーマのいずれか 1 つも使用できます。

未加工ドキュメントのインポート

ラベル付け用にインポートできるドキュメントの種類は .pdf.tiff.png.jpg です。手順は次のとおりです。
  1. [インポート] をクリックします。[データをインポート] ウィンドウが表示されます。
  2. [バッチ名] フィールドにバッチ名を入力します。これにより、後から [フィルター] ドロップダウンを使用して、これらのドキュメントを簡単にフィルター処理して見つけることができます。
  3. このドキュメント バッチを ML モデルのトレーニングに使用する場合は、[これをテスト セットにする] チェックボックスをオフのままにします。
  4. このドキュメント バッチを ML モデルの評価 (ML モデルのパフォーマンスの測定) に使用する場合は、[これをテスト セットにする] チェックボックスをオンにします。これにより、データがトレーニング パイプラインにより無視されるようになります。
  5. [ファイルを参照またはドロップ] セクションに、1 つのファイルまたはファイルのセットをアップロードするか、ドラッグ アンド ドロップします。
    すべてのファイルの種類が受け入れられます。アプリケーションによってファイルが検査され、インポート可能なファイルの数が示されます。.zip ファイルも受け入れられます。アプリケーションによってアーカイブが展開されます。フォルダーを再帰的に確認して内部のファイルがすべて検出されます。

    別の Data Manager インスタンスからエクスポートされたデータセットの zip ファイルをインポートすることにより、ラベル付きのドキュメントがインポートされます。これは、データセット スキーマが同じ場合、または Data Manager の既存のスキーマのサブセットである場合にのみ機能します。



Data Manager データセットのインポート

Data Manager の別のインスタンスで以前にラベル付けされたデータセットをインポートするには、最初にエクスポートされた zip ファイルを取得し、新しい Data Manager インスタンスに直接インポートする必要があります。新しい Data Manager インスタンスが完全に空の (データおよびフィールドが定義されていない) 場合は、データとスキーマの両方がインポートされます。新しい Data Manager インスタンスで既にフィールドが定義されている場合は、新たにインポートされたデータセットにも同じフィールドか、それらのフィールドのサブセットが必要です。そうでない場合、インポートは拒否されます。

検証ステーションのデータセットのインポート (プレビュー機能)

RPA ワークフローは既存の ML モデルを使用してドキュメントを処理するので、ドキュメントによっては、[検証ステーションを提示] アクティビティ (有人ボットで、またはブラウザーで Orchestrator Action Center を使用して利用可能) を使用した人間による検証が必要なことがあります。

検証ステーションで生成された検証済みデータは、[マシン ラーニング抽出器トレーナー] アクティビティを使用してエクスポートできます。また、ここで説明する機能を使用して ML モデルをトレーニングするために使用できます。

必要な手順は以下のとおりです。

  1. <Trainer/Output/Folder> というパス (空のフォルダー パスを使用) のフォルダーにデータを出力するよう、マシン ラーニング抽出器トレーナーを設定します。
  2. 検証ステーションとマシン ラーニング抽出器トレーナーを含む RPA ワークフローを実行します。
  3. マシン ラーニング抽出器トレーナーによって、出力フォルダー内に documents、metadata、predictions という名前の 3 つのサブフォルダーが作成されます。
  4. <Trainer/Output/Folder> を圧縮して zip ファイルを作成します (TrainerOutputFolder.zip など)。
  5. zip ファイルを Data Manager にインポートします。Data Manager は、インポートされたファイルにマシン ラーニング抽出器トレーナーによって作成されたデータが含まれていることを検知すると、そのデータをインポートします。
  6. 通常どおりデータをエクスポートし、AI Center にアップロードします。
  7. トレーニング パイプラインまたはフル パイプラインを起動し、微調整する ML パッケージとバージョンを選択します。

Was this page helpful?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
UiPath ロゴ (白)
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.