- 基本情報
- フレームワーク コンポーネント
- ドキュメント分類トレーニングの概要
- [分類器トレーニング スコープ] の分類器を設定ウィザード
- ドキュメント分類トレーニング関連のアクティビティ
- AI Center での Document Understanding
- パイプライン
- ML パッケージ
- データ マネージャー (Data Manager)
- OCR サービス
- ライセンス
- 参照
Document Understanding ガイド
ドキュメント分類トレーニングの概要
ドキュメント分類トレーニングは、人間によるフィードバックから学習できる分類器のフィードバック ループを閉じるのに役立つ Document Understanding フレームワークのコンポーネントです。
トレーニング コンポーネントを含まない Document Understanding プロセスが構築される場合があります。これは、いくつかの理由で起きる可能性があります。その一部を以下に示します。
- 使用している分類器が再トレーニングをサポートしていない
- 再トレーニングを実行するのではなく、プロセスでは常に同じトレーニングを使用したい
- 分類器トレーニングをオフラインで更新することを希望しており、その更新を DU プロセス外で管理している
しかし、ほとんどの場合、通常のプロセス使用の一環として分類器をトレーニングすることには、大きなメリットがあります。分類器は人間による検証情報を取り込んで、独自のトレーニング データを収集し、独自の更新を実行できるからです。ユーザーが何らかの方法で既存のワークフローを更新する必要はありません。分類器は、人間が正しいデータとして検証したデータに基づいて、将来より適切に機能するよう自ら学ぶことができる、自己学習型アルゴリズムになります。
分類トレーニングは、[分類器トレーニング スコープ] アクティビティを使用して行われます。このスコープ アクティビティには、一度に 1 つ以上の分類トレーニング アルゴリズムを設定して実行する役割があるため、1 つ以上の分類器をトレーニングできます。
分類トレーニングは通常、ドキュメント分類の検証後に実行されます。アルゴリズムが受け取るトレーニング データの精度を確保するため、トレーニング用には、人間が確認したフィードバックのみを分類器に送り返す必要があります。
分類トレーニングは、分類に失敗したケース (自動分類なし、または Knowledge Workers によって修正された自動分類) と、成功したケース (検証段階でユーザーによる修正が行われず、すべての自動結果が確認された) の両方で実行する必要があります。これは、どちらのケースもアルゴリズムの学習に役立つためです。
ドキュメント分類フェーズで使用された分類器と、分類予測に使用されていない分類器の両方をトレーニングできます。後者のアプローチは、後で Document Understanding ワークフローに追加して使用するために、トレーニング データを収集して、最初から分類器をトレーニングする場合に使用されます。
[分類器トレーニング スコープ] で行われることを、以下に簡潔にまとめます。
- すべての分類器トレーナー (トレーニング アルゴリズム) の実行に必要な設定を指定します。
- 1 つ以上の分類器トレーナーを受け入れます。
- ドキュメントの種類のフィルター処理、およびプロジェクトのタクソノミーと内部分類器のタクソノミーの間のマッピングを可能にします。
[分類器トレーニング スコープ] は、分類器を設定ウィザードを使用して設定できます。以下をカスタマイズできます。
- トレーニングのために、どのドキュメントの種類が、どの分類器トレーナーに送信されるか
- ドキュメントの種類のレベルでの、プロジェクトのタクソノミーと分類器の内部タクソノミー間のマッピング (ある場合)
分類器およびそれぞれのトレーナー アクティビティは、UiPath.IntelligentOCR.Activities パッケージに含まれています。
使用可能な分類器トレーナーは、次のとおりです。
- キーワード ベースの分類器トレーナー。キーワード ベースの分類器のトレーナー アクティビティです。
- インテリジェント キーワード分類器トレーナー。インテリジェント キーワード分類器のトレーナー アクティビティです。