- 概要
- Document Understanding Process
- クイックスタート チュートリアル
- フレームワーク コンポーネント
- ML パッケージ
- パイプライン
- Document Manager
- OCR サービス
- Automation Suite にデプロイされた Document Understanding
- AI Center スタンドアロンにデプロイされた Document Understanding
- ディープ ラーニング
- ライセンス
- 参照
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Document Understanding ガイド
データ抽出トレーニングの概要
データ抽出トレーニングは、Document Understanding フレームワークのコンポーネントです。人間によるフィードバックから学習する能力を持つ抽出器のフィードバック ループを閉じるのに役立ちます。このトレーニングは、追加のドキュメントに対する抽出器のパフォーマンスを (それぞれの学習能力に応じて) 向上させるのに役立ちます。
トレーニング コンポーネントを含まない Document Understanding プロセスが構築される場合があります。これは、いくつかの理由で起きる可能性があります。その一部を以下に示します。
- 使用している抽出器が再トレーニングをサポートしていない
- 再トレーニングを実行するのではなく、プロセスでは常に同じトレーニングを使用したい
- 抽出器トレーニングをオフラインで更新したいと考えており、その更新を DU プロセス外で管理している
しかしながら、ほとんどの場合、通常プロセスでの使用の一環として抽出器をトレーニングすることには大きなメリットがあります。抽出器は人間による検証が行われた情報を取り込んで、独自のトレーニング データを収集し、独自の更新を実行できるからです。ユーザーが既存のワークフローを更新する必要はありません。抽出器は、人間が正しいデータとして検証したデータに基づいて、将来より適切に機能するよう自ら学ぶことができる、自己学習型アルゴリズムになります。
データ抽出トレーニングは、[抽出器トレーニング スコープ] アクティビティを使用して行われます。このスコープ アクティビティには、一度に 1 つ以上の抽出器トレーニング アルゴリズムを設定して実行する役割があるため、1 つ以上の抽出器をトレーニングできます。
データ抽出トレーニングは通常、データ抽出の検証後に実行されます。アルゴリズムが受け取るトレーニング データの精度を確保するため、トレーニング用には、人間が確認したフィードバックのみを分類器に送り返す必要があります。
データ抽出トレーニングは、自動的に抽出されたデータが正しい (修正が不要) 場合だけでなく、人間による修正が行われた場合にも実行する必要があります。どちらのケースもアルゴリズムの学習に役立つためです。
データ抽出コンポーネントで使用されている抽出器と、データ抽出の予測に使用されていない抽出器の両方をトレーニングできます。後者のアプローチは、後で Document Understanding ワークフローに追加して使用するために、トレーニング データを収集して、ゼロから抽出器をトレーニングする場合に使用されます。
[抽出器トレーニング スコープ] で行われることを、以下に簡潔にまとめます。
- すべての抽出器トレーナー (トレーニング アルゴリズム) の実行に必要な設定を提供します。
- 1 つ以上の抽出器トレーナーを受け入れます。
- ドキュメントの種類とフィールド レベルのフィルター処理、およびプロジェクトのタクソノミーと内部抽出器のタクソノミーの間のマッピングを可能にします。
[抽出器トレーニング スコープ] は、[抽出器を設定] ウィザードを使用して抽出器を設定できます。以下をカスタマイズできます。
- トレーニングのために、どのドキュメントの種類およびどのフィールドが、どの抽出器トレーナーに送信されるか
- ドキュメントの種類のレベルおよびフィールド レベルでの、プロジェクトのタクソノミーと抽出器の内部タクソノミー (ある場合) 間のタクソノミー マッピング
抽出器トレーニング スコープでは、抽出器 - 抽出器トレーナーのアクティビティのペアを一意に特定することもでき、そのためにデータ抽出器スコープとトレーニング スコープの両方で同じフレームワーク エイリアス文字列が使用されます。
現在、トレーニング/再トレーニング機能が備わっているのは、マシン ラーニング抽出器だけです。このアクティビティは UiPath.DocumentUnderstanding.ML.Activities パッケージ内にあり、そのトレーニング アクティビティをマシン ラーニング抽出器トレーナーと呼びます。