- 基本情報
- フレームワーク コンポーネント
- AI Center での Document Understanding
- パイプライン
- ML パッケージ
- データ マネージャー (Data Manager)
- OCR サービス
- ライセンス
- 参照
データ抽出トレーニングの概要
データ抽出トレーニングは、人間によるフィードバックから学習できる抽出器のフィードバック ループを閉じるのに役立つ Document Understanding フレームワークのコンポーネントです。このトレーニングは、(それぞれの学習機能に応じて) 後続のドキュメントでの抽出器のパフォーマンスを向上させるのに役立ちます。
トレーニング コンポーネントを含まない Document Understanding プロセスが構築される場合があります。これは、いくつかの理由で起きる可能性があります。その一部を以下に示します。
- 使用している抽出器が再トレーニングをサポートしていない
- 再トレーニングを実行するのではなく、プロセスでは常に同じトレーニングを使用したい
- 抽出器トレーニングをオフラインで更新したいと考えており、その更新を DU プロセス外で管理している
しかしながら、ほとんどの場合、通常プロセスでの使用の一環として抽出器をトレーニングすることには大きなメリットがあります。抽出器は人間による検証が行われた情報を取り込んで、独自のトレーニング データを収集し、独自の更新を実行できるからです。ユーザーが既存のワークフローを更新する必要はありません。抽出器は、人間が正しいデータとして検証したデータに基づいて、将来より適切に機能するよう自ら学ぶことができる、自己学習型アルゴリズムになります。
データ抽出トレーニングは、[抽出器トレーニング スコープ] アクティビティを使用して行われます。このスコープ アクティビティには、一度に 1 つ以上の抽出器トレーニング アルゴリズムを設定して実行する役割があるため、1 つ以上の抽出器をトレーニングできます。
データ抽出トレーニングは通常、データ抽出の検証後に実行されます。アルゴリズムが受け取るトレーニング データの精度を確保するため、トレーニング用には、人間が確認したフィードバックのみを分類器に送り返す必要があります。
データ抽出トレーニングは、自動的に抽出されたデータが正しい (修正が不要) 場合だけでなく、人間による修正が行われた場合にも実行する必要があります。どちらのケースもアルゴリズムの学習に役立つためです。
データ抽出コンポーネントで使用されている抽出器と、データ抽出の予測に使用されていない抽出器の両方をトレーニングできます。後者のアプローチは、後で Document Understanding ワークフローに追加して使用するために、トレーニング データを収集して、ゼロから抽出器をトレーニングする場合に使用されます。
[抽出器トレーニング スコープ] で行われることを、以下に簡潔にまとめます。
- すべての抽出器トレーナー (トレーニング アルゴリズム) の実行に必要な設定を提供します。
- 1 つ以上の抽出器トレーナーを受け入れます。
- ドキュメントの種類とフィールド レベルのフィルター処理、およびプロジェクトのタクソノミーと内部抽出器のタクソノミーの間のマッピングを可能にします。
[抽出器トレーニング スコープ] は、[抽出器を設定] ウィザードを使用して抽出器を設定できます。以下をカスタマイズできます。
- トレーニングのために、どのドキュメントの種類およびどのフィールドが、どの抽出器トレーナーに送信されるか
- ドキュメントの種類のレベルおよびフィールド レベルでの、プロジェクトのタクソノミーと抽出器の内部タクソノミー (ある場合) 間のタクソノミー マッピング
抽出器トレーニング スコープでは、抽出器 - 抽出器トレーナーのアクティビティのペアを一意に特定することもでき、そのためにデータ抽出器スコープとトレーニング スコープの両方で同じフレームワーク エイリアス文字列が使用されます。
現在、トレーニング/再トレーニング機能が備わっているのは、マシン ラーニング抽出器だけです。このアクティビティは UiPath.DocumentUnderstanding.ML.Activities パッケージ内にあり、そのトレーニング アクティビティをマシン ラーニング抽出器トレーナーと呼びます。