document-understanding
2022.4
true
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。
Document Understanding ガイド
Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
Last updated 2024年10月24日

ドキュメントをエクスポートする

[ファイルをエクスポート] ダイアログ ボックスを使用すれば、ML モデルのトレーニング用にデータを簡単にエクスポートできます。

管理バーの [エクスポート] ボタン をクリックします。

このダイアログ ボックスには 3 つのタブがあります。

  • 今すぐエクスポート
  • スケジュール
  • ログ


今すぐエクスポート

[今すぐエクスポート] タブでは、以下を実行できます。

  • [ダウンロード] ボタンを使用してデータをローカルにダウンロードします。
  • [エクスポート] ボタンを使用して、データを AI Center にエクスポートできます。データがエクスポートされるフォルダーは、AI Center 内の export フォルダー ([データセット] > データセット名 > [export]) にあります。

スキーマが定義されていない場合は、すべてのエクスポート オプションが無効化されて表示されます。



スキーマが定義されている場合は、エクスポート名の入力は必須です。入力しないと、[ダウンロード] ボタンと [エクスポート] ボタンが無効化されて表示されます。有効な名前は最大 24 文字で、特殊文字を含めることはできません。

以下のいずれかのオプションを選択してエクスポートできます。

  • 現在の検索結果 - 事前定義されたキーワード/名前付きバッチまたはテキスト クエリによってフィルター処理された、ラベル付け済みドキュメントです。フィルターを適用しないと、現在のビューのラベル付け済みドキュメントがすべてエクスポートされます。
  • ラベル付けされたデータすべて - ラベル付けされた、あらゆる種類のフィールドを 1 つ以上持つすべてのドキュメントです。より正確には、ラベル付けされたフィルターで処理されたドキュメントです。
  • スキーマ - フィールドとその設定を含む zip ファイルです。別の Document Manager セッションにインポートできます。

[後方互換性のあるエクスポート] チェックボックスをオンにすると、従来のエクスポートの挙動を適用して、各ページを個別のドキュメントとしてエクスポートできます。既定のエクスポートでトレーニングしたモデルの評価結果が期待値より低い場合は、この機能をお試しください。ドキュメントを元の複数ページの形式でエクスポートする場合は、このチェックボックスをオフのままにします。

重要:

Document Manager の v2021.10 リリースでは、複数ページのドキュメントのラベル付けがサポートされており、各ページが個別にラベル付けされていた以前のリリースとは大幅に変更されています。複数ページのドキュメントのラベル付けおよびエクスポートを行う際は、各ドキュメントが 1 つの論理的なドキュメントであることを前提としています。たとえば、6 ページのドキュメントに 6 ページの請求書が 1 つ含まれていても問題はありませんが、2 ページずつの異なる請求書が 3 つ含まれていてはいけません。これは、評価セットの場合に特に重要です。

この要件は、後方互換性のあるエクスポートの場合は関係ありません。

エクスポート時の検証

データセットをエクスポートするには、10 個以上の異なるドキュメント内ですべてのフィールドがラベル付けされている必要があります。ラベル付けがされていないとエクスポートが失敗し、以下のメッセージが表示されます。





分類フィールドに関しては、各オプションが 1 つ以上のドキュメントでラベル付けされている必要もあります。ラベル付けがされていないとエクスポートが失敗し、以下のメッセージが表示されます。



評価セット データのみをエクスポートする場合は、すべての検証が無効化されます。

データセットの形式

Document Manager からエクスポートしたデータセットを含むフォルダーです。以下が含まれます。

  • schema.json: 抽出するフィールドとその種類を含むファイルです。
  • split.csv: トレーニング パイプラインの実行時に TRAIN または VALIDATE のいずれかで使用される、ドキュメントごとの分割を含むファイルです。
  • images: ラベル付けされたすべてのページの画像を含むフォルダーです。
  • latest: 各ページからのラベル付け済みデータを含む .json ファイルが格納されているフォルダーです。


スケジュールのパブリック プレビュー

エクスポートのスケジュール設定機能については、こちらをご覧ください。

ログ

[ログ] タブに、エクスポートに関する最新のログが表示されます。

エクスポートに成功すると、処理されたドキュメントの数とエクスポートにかかった時間がログに表示されます。



スキーマのエクスポートに成功すると、エクスポートにかかった時間がログに表示されます。



ファイルのエクスポート時には、エクスポートのステータスを確認できます。これは、大規模なエクスポートの場合に特に役立ちます。



ログには、以下に示すようにエラー メッセージも表示されます。



自動再トレーニングが成功すると、データセットの fine-tune フォルダーからのインポート ログも表示されます。



このページは役に立ちましたか?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
Uipath Logo White
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.