Document Understanding アクティビティ

最終更新日時 2024年12月5日

マシンラーニング抽出器トレーナー

UiPath.DocumentUnderstanding.ML.Activities.MachineLearningExtractorTrainer

説明

検証ステーションで処理されたデータの集合を有効化して、Document Manager にインポートできるようにします。このアクティビティは、[抽出器トレーニングスコープ] アクティビティ内でのみ使用できます。

プロジェクトの対応 OS

Windows - レガシ | Windows

構成

デザイナーパネル

ローカルストレージ

出力フォルダー - 収集されたデータが保存されるディレクトリ。データが保存されたら、マシンラーニングトレーニングツールにインポートできます。

プロジェクトのプライベートデータセットを選択

データセット - トレーニングデータをアップロードできるデータセットです。AI Center が有効化されているテナントにロボットが接続されている場合、AI Center にあるすべてのデータセットがドロップダウンメニューに表示されます。ここから検証済みドキュメントのアップロード先フォルダーを選択します。
プロジェクト - トレーニングデータをアップロードできるプロジェクトです。
注: プロジェクトとデータセットの選択は、Orchestrator に接続されている場合にのみ有効化されます。パブリック/プライベートデータセットの詳細については、「データセットを管理する」をご覧ください。

パブリックデータセットエンドポイントを入力

データセット API キー - データセットの認証キーです。
データセットのエンドポイント - トレーニングデータをアップロードできるデータセットのエンドポイントです。データセットを公開すると、エンドポイントを介し API キーを使用して UiPath® の環境外からアクセスできるようになります。接続していない AI Center インスタンスにデータセットをアップロードする場合に使用します (例: AI Center が Automation Cloud 上にあり、ロボットがオンプレミスのテナントに接続されているハイブリッドデプロイの場合)。

プロパティパネル

共通

表示名 - アクティビティの表示名です。

ローカルストレージ

出力フォルダー - 収集されたデータが保存されるディレクトリ。データが保存されたら、マシンラーニングトレーニングツールにインポートできます。

その他

プライベート - オンにした場合、変数および引数の値が Verbose レベルでログに出力されなくなります。

パブリックデータセットエンドポイントを入力

データセット API キー - データセットの認証キーです。
データセットのエンドポイント - トレーニングデータをアップロードできるデータセットのエンドポイントです。データセットを公開すると、エンドポイントを介し API キーを使用して UiPath® の環境外からアクセスできるようになります。接続していない AI Center インスタンスにデータセットをアップロードする場合に使用します (例: AI Center が Automation Cloud 上にあり、ロボットがオンプレミスのテナントに接続されているハイブリッドデプロイの場合)。

プロジェクトのプライベートデータセットを選択

データセット - トレーニングデータをアップロードできるデータセットです。AI Center が有効化されているテナントにロボットが接続されている場合、AI Center にあるすべてのデータセットがドロップダウンメニューに表示されます。ここから検証済みドキュメントのアップロード先フォルダーを選択します。
プロジェクト - トレーニングデータをアップロードできるプロジェクトです。

注: プロジェクトとデータセットの選択は、Orchestrator に接続されている場合にのみ有効化されます。パブリック/プライベートデータセットの詳細については、「データセットを管理する」をご覧ください。

サーバー

エラー発生時にリトライ - 一時的なエラー発生時にリトライします。このフィールドでは Boolean 値 ([True]、[False]) のみサポートされています。既定値は [True] です。
タイムアウト (ミリ秒) - サーバーからの応答があるまで待機する時間をミリ秒で指定します。指定した時間が経過しても実行が完了しない場合には例外をスローします。既定値は 100000 ミリ秒 (100 秒) です。

マシンラーニング抽出器トレーニングウィザードを使用する

[マシンラーニング抽出器トレーナー] は、選択したディレクトリ内で、人間からのフィードバックを収集します。データを収集した後に ML モデルを再トレーニングするには、ディレクトリのコンテンツを圧縮して Document Manager にアップロードするだけで、データの収集やフィルター処理ができます。

使用方法

[マシンラーニング抽出器トレーナー] アクティビティを使用するには、次の手順を実行します。

タクソノミーマネージャーウィザードを使用して、ドキュメントの種類とフィールドを定義します。
[マシンラーニング抽出器トレーナー] を [抽出器トレーニングスコープ] アクティビティに追加します。
自動的に開く [マシンラーニング抽出器] ウィザードで、[エンドポイント] フィールドに情報を入力します。いずれかのパブリックエンドポイントを選択できます。パブリックエンドポイントについて詳しくは、「パブリックエンドポイント」をご覧ください。
入力した値をアクティビティ (より正確にはエンドポイント) の入力引数としても使用する場合は、[アクティビティの引数を更新] チェックボックスをオンにします。
[機能を取得] を選択します。
この操作の後、ウィザードが閉じます。
[出力フォルダー] の値を入力します。
[抽出器トレーニングスコープ] の [抽出器を設定] オプションを選択します。
ウィザードが表示されます。

図 1. [抽出器を設定] ウィザード
これで、[マシンラーニング抽出器トレーナー] を設定できるようになりました。適用先ドキュメントの種類を展開し、該当するフィールドの横のチェックボックスをオンにして、トレーニングするフィールドの選択を開始します。
テキストボックスに手動で入力するか、表示されるドロップダウンリストから各フィールドにマッピングする適切なデータを選択します。ドロップダウンリストには、[マシンラーニング抽出器トレーナー] が、[マシンラーニング抽出器] ウィザードで入力されたエンドポイントを使用し、抽出機能として宣言した、すべてのフィールドが含まれます。
注: チェックボックスはオンにしてもテキストボックスは空のままにしておいた場合、テキストボックスにはローカルのタクソノミーのドキュメントの種類の ID が自動的に入力されます。変更は、保存後に適用されます。抽出器の内部タクソノミーへのアクセス権がない場合に、フィールド ID に長い文字列を使用したくない場合は、値を手動で入力することをお勧めします。
抽出器の最新機能を使用しているかどうかを確認するには、[抽出器機能を取得または更新] を選択して、[マシンラーニング抽出器] ウィザードを開きます。
ドロップダウンリストのオプションの 1 つを選択すると、そのフィールドが自動的に確認されます。
抽出結果に基づいて抽出器をトレーニングするには、抽出器として以前使用した [フレームワークエイリアス] フィールドに、正確な英数字の値を設定します。
すべてのフィールドを適切に設定したら、[保存] を選択します。
重要: 2 つの異なるフィールドに対して同じオプションを選択することはできません。