- 基本情報
- フレームワーク コンポーネント
- AI Center での Document Understanding
- パイプライン
- ML パッケージ
- データ マネージャー (Data Manager)
- OCR サービス
- ライセンス
- 参照
ドキュメントをインポートする
AI Center では、特殊文字を含むファイル名はサポートされていません。したがって、ドキュメントを Data Manager にインポートする前に、名前にアルファベット、数字、ダッシュ (-)、アンダーバー (_) のみが含まれていることを確認するよう強くお勧めします。
Data Manager でサポートされているインポートは 4 種類あります。
- スキーマのインポート
- 未加工ドキュメントのインポート
- Data Manager データセットのインポート
- マシン ラーニング抽出器トレーナー データセットのインポート (プレビュー機能)
既存のインスタンスと同じスキーマを使用して Data Manager の新しいインスタンスを起動する場合は、以下の手順を実行できます。
- 既存のインスタンスのフィルターにランダムな文字列を入力します。それにより、ビューにドキュメントが残らなくなります。
- [エクスポート] ボタンをクリックします。zip ファイルがエクスポートされます。
- Data Manager の新しいインスタンスに zip ファイルを直接インポートします (展開しない)。スキーマがインポートされます。
このドキュメントの「Data Manager を設定する」セクションに記載されている事前定義されたスキーマのいずれか 1 つも使用できます。
.pdf
、.tiff
、.png
、.jpg
です。手順は次のとおりです。
- [インポート] をクリックします。[データをインポート] ウィンドウが表示されます。
- [バッチ名] フィールドにバッチ名を入力します。これにより、後から [フィルター] ドロップダウンを使用して、これらのドキュメントを簡単にフィルター処理して見つけることができます。
- このドキュメント バッチを ML モデルのトレーニングに使用する場合は、[これをテスト セットにする] チェックボックスをオフのままにします。
- このドキュメント バッチを ML モデルの評価 (ML モデルのパフォーマンスの測定) に使用する場合は、[これをテスト セットにする] チェックボックスをオンにします。これにより、データがトレーニング パイプラインにより無視されるようになります。
- [ファイルを参照またはドロップ] セクションに、1 つのファイルまたはファイルのセットをアップロードするか、ドラッグ アンド ドロップします。
すべてのファイルの種類が受け入れられます。アプリケーションによってファイルが検査され、インポート可能なファイルの数が示されます。
.zip
ファイルも受け入れられます。アプリケーションによってアーカイブが展開されます。フォルダーを再帰的に確認して内部のファイルがすべて検出されます。別の Data Manager インスタンスからエクスポートされたデータセットの zip ファイルをインポートすることにより、ラベル付きのドキュメントがインポートされます。これは、データセット スキーマが同じ場合、または Data Manager の既存のスキーマのサブセットである場合にのみ機能します。
Data Manager の別のインスタンスで以前にラベル付けされたデータセットをインポートするには、最初にエクスポートされた zip ファイルを取得し、新しい Data Manager インスタンスに直接インポートする必要があります。新しい Data Manager インスタンスが完全に空の (データおよびフィールドが定義されていない) 場合は、データとスキーマの両方がインポートされます。新しい Data Manager インスタンスで既にフィールドが定義されている場合は、新たにインポートされたデータセットにも同じフィールドか、それらのフィールドのサブセットが必要です。そうでない場合、インポートは拒否されます。
RPA ワークフローは既存の ML モデルを使用してドキュメントを処理するので、ドキュメントによっては、[検証ステーション] アクティビティ (有人ボットで、またはブラウザーで Orchestrator Action Center を使用して利用可能) を使用した人間による検証が必要なことがあります。
検証ステーションで生成された検証済みデータは、[マシン ラーニング抽出器トレーナー] アクティビティを使用してエクスポートできます。また、ここで説明する機能を使用して ML モデルをトレーニングするために使用できます。
必要な手順は以下のとおりです。
- <Trainer/Output/Folder> というパス (空のフォルダー パスを使用) のフォルダーにデータを出力するよう、マシン ラーニング抽出器トレーナーを設定します。
- 検証ステーションとマシン ラーニング抽出器トレーナーを含む RPA ワークフローを実行します。
- マシン ラーニング抽出器トレーナーによって、出力フォルダー内に documents、metadata、predictions という名前の 3 つのサブフォルダーが作成されます。
- <Trainer/Output/Folder> を圧縮して zip ファイルを作成します (TrainerOutputFolder.zip など)。
- zip ファイルを Data Manager にインポートします。Data Manager は、インポートされたファイルにマシン ラーニング抽出器トレーナーによって作成されたデータが含まれていることを検知すると、そのデータをインポートします。
- 通常どおりデータをエクスポートし、AI Center にアップロードします。
- トレーニング パイプラインまたはフル パイプラインを起動し、微調整する ML パッケージとバージョンを選択します。