Document Understanding ガイド

抽出器を再トレーニングする

注:

利用可能な機能は、使用するクラウドプラットフォームによって異なります。詳しくは、「デプロイの種類を選択する」をご覧ください。

検証ステーションで検証されたドキュメントを使用して、モデルのパフォーマンスをさらに向上させることができます。

以下のアクティビティを使用して、処理されたドキュメントを再トレーニングできます。

UiPath.DocumentUnderstanding.Activities: このアクティビティパッケージを使用して処理され、検証ステーションで検証されたすべてのドキュメントが自動的に収集され、再トレーニングに使用できます。
UiPath.IntelligentOCR.Activities (バージョン 6.25.0-preview 以降): このアクティビティパッケージを使用して処理されたドキュメントを再トレーニングするには、ワークフローで [Document Understanding プロジェクト抽出器トレーナー] アクティビティを使用します。これにより、再トレーニングのためにドキュメントを収集できます。

[構築] セクション内で、対応するドキュメントの種類に対して [レビューの例外] ボタンが常に表示されるようになりました。ドキュメントが収集されていない場合、ボタンは引き続き使用可能で、カウントは 0 と表示されます。

注:

収集されたドキュメントは、自動的にはトレーニングセットに含まれません。ドキュメントを確認し、トレーニングセットに追加することを確認します。次に、ドキュメントの種類のアノテーションページで [ トレーニングを開始 ] を選択して、追加したドキュメントを含む新しいトレーニング実行をキューに入れます。詳しくは、「トレーニングの実行を開始する」をご覧ください。

レビューが必要な例外

検証ステーションからのドキュメントを使用してモデルを微調整するには、以下の手順に従います。

注:

例外として収集されたドキュメントは 90 年間保存され、その後自動的に削除されます。期間が 7 日を超える検証タスクでは、ドキュメントは収集されません。

[レビューが必要な例外] ボタンを選択します。
微調整の例外メニューから例外文書を確認します。

各ドキュメントについて、次の情報を確認できます。
- ファイル名: 例外を含むドキュメントのファイル名です。
- ステータス: ドキュメントのステータスです。
- ページ数: ドキュメントに含まれるページ数です。
- プロジェクトのバージョン: ドキュメントを含むプロジェクトのバージョンです。
- 処理日時: ドキュメントが処理された日付です。
- 抽出されたフィールド数: 例外を含むドキュメントに対して抽出されたフィールドの数です。
- 修正されたフィールド数: 検証手順中に変更されたフィールドの数です。
- 検証者名: ドキュメントを検証したユーザーのユーザー名です。
注:
微調整 の例外 リストには、他の Document Understanding プロジェクトまたは環境からインポートしたドキュメントが含まれる場合があります。
微調整に使用するドキュメントをリストから選択します。

各ドキュメントについて、次の情報を確認できます。
- 抽出されたすべてのフィールドが、モデルの信頼度とともに表示されます。信頼度の値が [該当なし] の場合は、そのフィールドが自動的には抽出されず、検証者によって手動で追加されたことを示します。
- 修正されたフィールドには、抽出されたフィールドの名前の横に黄色の点が表示されます。
- 修正されたすべてのフィールドについて、次の情報を確認できます。
  - 予測値: モデルによって予測された値です。
  - 修正後の値: 手動で変更した場合は、検証後の値です。検証後にドキュメントの種類が変更されていない場合、値は [該当なし] になります。
  - 参照: ドキュメント上で強調表示されている元の値です。このドキュメントを微調整に使用する場合、この値がアノテーションに使用されます。
- 信頼度で並べ替えると、信頼度が低く修正されていないフィールドを簡単に確認できます。
- 修正されたフィールドでフィルター処理すると、そのフィールドにのみ焦点を当てることができます。
このドキュメントにさらにアノテーションを行う場合は [アノテーションを行う] を選択します。このドキュメントを使用してモデルを再トレーニングする場合は、[微調整に使用] を選択します。
- 微調整に使用:
  - ドキュメントがモデルの微調整に適した例であり、ドキュメント内のすべてのフィールドが正しく参照されている場合に選択します。
  - ドキュメントは、例外タグが付けられ、すべてのアノテーションが確認済みの状態でトレーニングにインポートされます。このドキュメントを使用して微調整が行われます。
- アノテーションを行う:
  - ドキュメントはモデルの微調整に適した例であるものの、検証エラーがいくつかある場合に選択します。たとえば、ドキュメント内で一部のフィールドが正しく参照されておらず、さらに修正が必要である場合などです。
  - ドキュメントは、例外タグが付けられ、すべてのアノテーションが未確認の状態でトレーニングにインポートされます。ドキュメントを使用してモデルを微調整するには、[構築] セクションでアノテーションを確認する必要があります。
  - さらにドキュメントのアノテーションを行う場合、ドキュメントのアノテーションを行う方法について詳しくは、「ドキュメントのアノテーションを行う」をご覧ください。
- 除外:
  - ドキュメントが適切な例ではないため、レビューが必要な例外のリストから削除し、今後のレビューセッションでレビューする必要がない場合に選択します。
  - ドキュメントのステータスを変更して、変更を元に戻すことができます。
図 1.微調整またはアノテーションに使用する、選択したドキュメント

微調整用のドキュメントをすべて選択すると、モデルは、検証ステーションからの新しいデータを使用して再トレーニングされます。

新しいプロジェクトのバージョンを作成し、[評価] セクションの [モデルを比較] 機能を使用して、モデルのパフォーマンスを比較できます。

[プレビュー] 再トレーニング候補者をエクスポートおよびインポートする

Document Understanding では、再トレーニングの候補をある環境からエクスポートして、別の環境にインポートできます。

この設定は、開発・テスト・運用の環境の構造を維持するシナリオで一般的に使用されます。このプロセスでは、開発環境の Document Understanding プロジェクトをテスト、UAT、または本番環境といった上位の環境にコピーして使用します。この構成では、再トレーニング用のドキュメントが運用プロジェクト内で収集されます。エクスポート/インポート機能を使用することで、ドキュメントを開発環境に戻し、モデルを再トレーニングできます。その後、更新された内容をテストや本番などの上位環境に反映します。

再トレーニング候補をエクスポートする

[エクスポート] ボタンを選択すると、再トレーニングの候補を [レビューの例外] ページから直接エクスポートできます。[ エクスポートを表示 ] を選択して、エクスポートされたファイルのリストにアクセスします。

レビュープロセスの管理方法に応じて、収集したすべてのドキュメントをエクスポートするか、選択したサブセットだけをエクスポートするかを選択できます。以下の説明をご確認ください。

収集したすべてのドキュメントをエクスポートし、インポート後にモデルを再トレーニングする予定の環境で選別できます。
現在の環境でレビューを完了して、再トレーニングに使用する特定のドキュメントのみをエクスポートできます。

再トレーニング候補をインポートする

インポートは [レビューが必要な例外] ページから行います。インポートされたドキュメントは、検証ステーションから自動的に収集されたドキュメントと同様の方法で表示され、[レビュー待ち] ステータスになります。

インポートされたドキュメントは、再トレーニング候補として追加されます。モデルを微調整するには、プロジェクトで直接収集されたドキュメントの場合と同じ手順に従います。トレーニングセットに追加する前に、再トレーニングの候補を必ず確認して確定してください。

レビューが必要な例外
[プレビュー] 再トレーニング候補者をエクスポートおよびインポートする
再トレーニング候補をエクスポートする
再トレーニング候補をインポートする

このページは役に立ちましたか?

前へトレーニングの実行を開始する

次へ分類器をトレーニングする

Document Understanding ガイド

レビューが必要な例外​

[プレビュー] 再トレーニング候補者をエクスポートおよびインポートする​

再トレーニング候補をエクスポートする​

再トレーニング候補をインポートする​

このページは役に立ちましたか?

レビューが必要な例外

[プレビュー] 再トレーニング候補者をエクスポートおよびインポートする

再トレーニング候補をエクスポートする

再トレーニング候補をインポートする