- 基本情報
- フレームワーク コンポーネント
- ML パッケージ
- パイプライン
- データ マネージャー (Data Manager)
- OCR サービス
- Automation Suite にデプロイされた Document Understanding
- AI Center スタンドアロンにデプロイされた Document Understanding
- ディープ ラーニング
- ライセンス
- 参照
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Document Understanding ガイド
マシン ラーニング抽出器
マシン ラーニング抽出器は、データ抽出の対象データを識別および報告するためにマシン ラーニング モデルを使用するデータ抽出ツールです。
このアクティビティは UiPath Document Understanding モデルのコンパニオンであり、ワークフロー内でそのようなモデルを使用する手段です。
マシン ラーニングを使用するアプローチは、さまざまなドキュメント プロバイダーによってレイアウトが大きく異なる構造化または半構造化ドキュメントからデータを抽出する場合に強く推奨されます。このアプローチでは、抽出器はトレーニングされたマシン ラーニング モデルを使用します。このモデルは学習することができ、今まで処理したことのないドキュメントやレイアウトでも対象フィールドの値を推測できます。つまり、ドキュメントがテキスト パターンやレイアウト パターンに従っていないユース ケースにおいて、マシン ラーニング抽出器はよい選択肢です。
マシン ラーニング モデルは、複数の方法で使用できます。
- 特定のドキュメントの種類を対象にした一般的なモデルを使用する場合、UiPath Document Understanding のいずれかのパブリック エンドポイントで使用できます。
- UiPath Document Understanding の利用可能モデルから始まる、カスタムでトレーニングされたマシン ラーニング モデルで使用できます。
この抽出器はトレーニング/再トレーニングできます。詳細については、「トレーニング方法」セクションをご覧ください。
以下を使用する必要があります。
- データ抽出用の UiPath Document Understanding のいずれかのパブリック エンドポイント
- Automation Cloud の AI Center でホストされるマシン ラーニング モデル
- オンプレミスの AI Center でホストされているが、Automation Cloud でライセンスされており、Automation Cloud Document Understanding の API キーを使用する必要のあるマシン ラーニング モデル
オンプレミスのライセンスでマシン ラーニング抽出器を使用するには、オンプレミスの AI Center (エアギャップ インストール) インスタンスで Document Understanding モデルをホストする必要があります。
使用しているエンドポイントが Automation Cloud でライセンスされている場合は、Automation Cloud Document Understanding の API キーを指定する必要があります。
UiPath Document Understanding のパブリック エンドポイントまたは AI Center のパブリック ML スキルでマシン ラーニング抽出器を使用している場合は、対応する URL でアクティビティの [エンドポイント] 引数を設定する必要があります。
デプロイした ML スキルでマシン ラーニング抽出器を使用している場合は、アクティビティの [ML スキル] 引数を、AI Center でホストされている ML スキル リストから正しく選択して設定する必要があります。
両方のオプションを設定しようとすると、設定ウィザードまたは直接ワークフローにエラーが表示されます。
[データ抽出スコープ] に初めてドロップされると、マシン ラーニング抽出器は設定ウィザードを開きます。[データ抽出スコープ] の抽出器を設定ウィザードを開き、抽出器名の下にある設定アイコンをクリックしても、同じウィザードを使用できます。
このウィザードでは、[エンドポイント] または [ML スキル] を入力し、[API キー] を指定できます (必要な場合)。[エンドポイント] と [API キー] を入力する場合は、引用符なしで入力する必要があり、値を変数にすることはできません。
[アクティビティの引数を更新] オプションを使用して、ウィザードで追加した値をアクティビティの引数にあらかじめ設定することもできます。
[機能を取得] オプションをクリックすると、データ抽出を正しく設定できるように、マシン ラーニング抽出器は内部機能 (どのドキュメントの種類およびどのフィールドの処理が可能か) を「読み取って報告」します。
ワークフローで使用する ML スキルまたはエンドポイントを変更するたびに、マシン ラーニング抽出器機能のウィザードを使用して、[データ抽出スコープ] での設定とタクソノミーのマッピングが有効なままであることを確認することをお勧めします。
ML Extractor Capabilities ウィザードを実行すると、抽出器を設定ウィザードで、タクソノミー マッピング用のテキスト ボックスは表示されず、ドロップダウン リストが表示されることがわかります。
データを抽出するドキュメントの種類を展開して、対象とするフィールドの選択を開始します。対象のフィールドの横にあるチェックボックスをチェックし、表示されるドロップダウン リストから、特定の各フィールドにマッピングする ML モデルの適切なフィールドを選択します。ドロップダウン リストには、[マシン ラーニング抽出器] が、[マシン ラーニング抽出器] ウィザードで入力されたエンドポイントを使用し、抽出機能として宣言した、すべてのフィールドが含まれます。
抽出器の最新機能を使用しているかどうかを確認するには、[抽出器機能を取得または更新] をクリックして、[マシン ラーニング抽出器] ウィザードを開きます。
抽出器のトレーニング機能も使用する場合は、[フレームワーク エイリアス] 設定フィールドに一意の英数字の文字列値を入力し、完全なトレーニング データを受け取る必要のあるトレーナーに対して、[抽出器トレーニング スコープ] 設定の対応する [フレームワーク エイリアス] フィールドでまったく同じ文字列値を使用することを強くお勧めします。
すべてのデータを適切に設定したら、[保存] ボタンを選択します。
マシン ラーニング抽出器モデル インスタンスのトレーニング データを収集するには、[抽出器トレーニング スコープ] で [マシン ラーニング抽出器トレーナー] アクティビティを使用します。このように収集されたデータは、AI Center (クラウドまたはオンプレミス) のインスタンスでキュレーションに使用し、その後トレーニングのためにインポートできます。