activities
latest
false
UiPath logo, featuring letters U and I in white

Document Understanding アクティビティ

最終更新日時 2024年12月5日

インテリジェント キーワード分類器

UiPath.IntelligentOCR.Activities.DocumentClassification.IntelligentKeywordClassifier

説明

このアクティビティでは、すべてのユーザーがドキュメント パッケージを分類して個々のドキュメントの種類に分割できます。[ドキュメント分類スコープ] アクティビティとともにのみ使用できます。

プロジェクトの対応 OS

Windows - レガシ | Windows

構成

デザイナー パネル
  • ラーニング ファイルのパス - 分類器データを含むファイルへのフル パスです。このフィールドは、文字列と String 型変数のみをサポートします。
    注:

    一度に設定できるのは、上記のパラメーターのうち 1 つだけです。[ラーニング データ] 文字列または [ラーニング ファイルのパス] 文字列のいずれかを使用できます。

    [ラーニング ファイルのパス] は分類器データを取得する場所から場所を指定します。

    [ラーニング データ] は、その分類器の実際の情報が含まれています。

  • エンドポイント - UiPath® サーバーの URL です。既定のエンドポイントは https://du.uipath.com/svc/intelligentkeywords です。エンドポイントについて詳しくは、「Document Understanding のパブリック エンドポイント」をご覧ください。
  • API キー - アカウントの API キーを指定します。ローカルのプロジェクト設定または Document Understanding フレームワークで定義されている場合、[API キー] フィールドは自動的に事前入力されます。
プロパティ パネル

共通

  • 表示名 - アクティビティの表示名です。

入力

  • API キー - アカウントの API キーを指定します。ローカルのプロジェクト設定または Document Understanding フレームワークで定義されている場合、[API キー] フィールドは自動的に事前入力されます。
  • エンドポイント - UiPath® サーバーの URL です。既定のエンドポイントは https://du.uipath.com/svc/intelligentkeywords です。エンドポイントについて詳しくは、「Document Understanding のパブリック エンドポイント」をご覧ください。
  • ラーニング データ - シリアル化された分類器のデータを含む文字列です。このフィールドは、文字列と String 型変数のみをサポートします。
  • ラーニング ファイルのパス - 分類器データを含むファイルへのフル パスです。このフィールドは、文字列と String 型変数のみをサポートします。
    注:

    一度に設定できるのは、上記のパラメーターのうち 1 つだけです。[ラーニング データ] 文字列または [ラーニング ファイルのパス] 文字列のいずれかを使用できます。

    [ラーニング ファイルのパス] は分類器データを取得する場所から場所を指定します。

    [ラーニング データ] は、その分類器の実際の情報が含まれています。

  • ドキュメントを送信 - 有効化すると、UiPath® は、アルゴリズムのパフォーマンスを向上させるために参照されているドキュメントを保存できます。この機能を無効化すると、UiPath® はドキュメントを保存できません。どちらの設定であっても、アルゴリズムの動作は影響を受けません。

その他

  • プライベート - オンにした場合、変数および引数の値が Verbose レベルでログに出力されなくなります。
    注: ベスト プラクティスは、その場所に.json ファイルを作成し、その名前を [ラーニング ファイルのパス] フィールドに使用することです。

分割

  • ドキュメントの分割を実行 - オフのままにすると、モデルはドキュメントを分割せず、分類のみを実行します。
  • ページ番号を使用 - オンにすると、モデルはページ番号機能を使用してドキュメントを分割する場所を決定します。ページ番号を使用すると分割結果が改善される場合に使用します。
注: 最適化された分割パフォーマンスを享受するには、v6.9.0 以降を使用してください。

[学習を管理] ウィザードの使用

[学習を管理] ウィザードにアクセスして、[インテリジェント キーワード分類器] アクティビティを設定します。このウィザードは、ドキュメント分類トレーニング フェーズで収集されたデータをレビューする際にも使用できます。それには、更新されたラーニング ファイルのパスでウィザードを開きます。

このウィザードを使用すると、[インテリジェント キーワード分類器] アクティビティでドキュメントの種類を識別しドキュメントを分類するために使用されるトレーニング データを設定および管理できます。ファイル パスを編集する必要性に合わせて作成されました。代わりに変数付きのラーニング データ オプションが使用される場合、特定のファイル パスを編集するか、この操作を中止するかを確認されます。

注: [学習を管理] ウィザードは、アクティビティをラーニング ファイルのパス文字列で設定した場合にのみ機能します。変数入力として設定されたラーニング ファイルのパスや、ラーニング データ文字列入力では動作しません。
  1. [インテリジェント キーワード分類器] または [インテリジェント キーワード分類器トレーナー] アクティビティをワークフローに追加します。
  2. .json ファイルのパスを追加して、[インテリジェント キーワード分類器] アクティビティを構成します。分類器を構成する際は、以下の情報を考慮に入れてください。
    • パスが指定されておらず、[学習を管理] オプションが選択されると、ラーニング ファイルのパスの入力を確認するポップアップが表示されます。パスが指定されると、ウィザードが開きます。
    • .json ファイルではなく変数を追加できますが、ウィザードが LearningData 変数に学習パターンを適用することはできないため、編集できる特定のファイルのパスを要求します。
  3. [学習を管理] を選択します。
    インテリジェント キーワード分類器ウィザードのウィンドウが開きます。
    図 1. インテリジェント キーワード分類器ウィザードの [学習を管理] セクションの概要

  4. パスが指定されておらず、[学習を管理] オプションが選択されると、ラーニング ファイルのパスを確認するポップアップが表示されます。パスが指定されると、ウィザードが開きます。
    図 2. パスが指定されていない場合に [学習を管理] オプションを選択すると表示される警告ポップアップ

    注: .json ファイルが使用できない場合でも、新しい .json ファイルの名前をアクティビティに直接追加することができ、.json ファイルが、指定されたフォルダー内に自動的に作成されます。

学習を管理ウィザードでは、ドキュメントの種類の横に「(X) 個のファイルでトレーニングされました」や「トレーニングを開始」などのラベルが表示され、そのドキュメントの種類がトレーニング済みかどうかを確認できます。下記のスクリーンショットは、トレーニング済みのドキュメントの種類、未トレーニングのドキュメントの種類、およびトレーニング済みで選択されていて表示または削除できるドキュメントの種類を示しています。

図 3. インテリジェント キーワード分類器の [学習を管理] セクション内に表示されるドキュメントの種類とそのトレーニング ステータス

トレーニング データ

未トレーニングのドキュメントの種類に対しては、[トレーニングを開始] オプションを使用して設計時トレーニングを実行できます。一部トレーニングを実行済みのドキュメントの種類に対しては、削除 削除 オプションを使用して削除してからやり直すか、編集 編集 オプションを使用して既存のトレーニングに対する追加のトレーニングを実行できます。

注: 使用するトレーニング ファイルは、1 つのファイルにつき 1 つのドキュメントの種類を含める必要があります。2 つ以上のドキュメントの種類を含むファイルには、トレーニング データに誤りがあるため、設計時トレーニングを実行しないでください。

新しいトレーニングを開始すると、使用するトレーニング ファイルと OCR エンジンを確認するための新しい画面が表示されます。既定の OCR エンジンは UiPath® Document OCR です。各 OCR エンジンには、それぞれ独自のカスタム オプションが付属しています。

図 4. [トレーニングを開始] オプションを選択した後に表示されるウィザード

注:

以下の OCR エンジンは、回転されたドキュメントをサポートしていないため、そうしたドキュメントの処理には使用しないでください。

  • Microsoft OCR
  • Tesseract OCR
[PDF に OCR を適用] オプションは、PDF ドキュメントに OCR プロセスを適用するかどうかを指定します。ドロップダウン リストには、次の 3 つのオプションがあります。
  • True: [True] に設定すると、ドキュメントのすべての PDF ページに OCR が適用されます。
  • False: [False] にすると、デジタル入力されたテキストのみが抽出されます。
  • Auto: 既定値は [Auto] で、入力ドキュメントに応じてドキュメントに OCR アルゴリズムを適用する必要があるかどうかを判断します。
注:
UiPath.IntelligentOCR.Activities パッケージが v5.1.0 に更新されている場合、[OCR を強制適用] パラメーターは [PDF に OCR を適用] に置き換えられています。古いパラメーターと新しいパラメーターとの対応は次のとおりです。
  • [OCR を強制適用] = [True][PDF に OCR を適用] = [はい] に置き換えられます。
  • [OCR を強制適用] = [False][PDF に OCR を適用] = [自動] に置き換えられます。
  • [OCR を強制適用] = [空] は [PDF に OCR を適用] = [自動] に置き換えられます。
  • [OCR を強制適用] = ユーザー定義変数は [PDF に OCR を適用] = [自動] に置き換えられます。

トレーニング データをエクスポートする

トレーニング済みのドキュメントの種類から得られたトレーニング データだけをエクスポートすることができます。未トレーニングのドキュメントの種類は選択できません。

図 5. トレーニングされていないために [エクスポート] オプションが利用できない、インテリジェント キーワード分類器のドキュメントの種類

次の手順に従って、トレーニング データをエクスポートできます。

  1. トレーニング済みのドキュメントの種類を選択します。
  2. [エクスポート] を選択します。
    保存していない変更がある場合は、「変更を保存していない間はエクスポートできません。エクスポートする前に自動的に保存しますか?」というメッセージが表示されます。[はい] を選択してエクスポート プロセスを続行します。
    図 6. トレーニング データをエクスポートする前に保存されていない変更がある場合に表示される「変更を保存」メッセージ

  3. トレーニング データのアーカイブを希望の名前で保存します。
    エクスポートされたドキュメントの種類のトレーニング データ セットの数を示すメッセージが表示されます。たとえば、「4 個の単語ベクトルをエクスポートしました。」と表示されます。
    図 7. エクスポートされたドキュメントの種類のトレーニング データ セットの数を示すメッセージの例

  4. [OK] を選択して、ウィザードのメイン画面に戻ります。

トレーニング データをインポートする

次の手順に従って、トレーニング データをインポートできます。

  1. [インポート] を選択します。
  2. トレーニング データのアーカイブを選択し、[開く] を選択します。
  3. 必要なドキュメントの種類を選択します。
    図 8. [単語ベクトルをインポート] セクションで選択されたドキュメントの種類

  4. [インポート] を選択します。
    トレーニング データがインポートされます。
    図 9. 以前にインポート対象として選択したドキュメントの種類が [学習を管理] セクションに表示された状態

以下の表は、トレーニング データのインポート時にインポートの種類に基づいて表示されるメッセージについて説明しています。

表 1. さまざまなインポートの種類に対して表示されるメッセージ
 

表示されるメッセージ

新しいドキュメントの種類と単語ベクトル

このドキュメントの種類は、タクソノミーに追加されます。

新しい単語ベクトル (いずれも定義されたことがないもの)

メッセージは表示されません。

同一のドキュメントの種類と単語ベクトル

このドキュメントの種類の単語ベクトルは上書きされます。

Document Understanding との連携

[インテリジェント キーワード分類器] アクティビティは、Document Understanding のソリューションに含まれます。詳細については、『Document Understanding ガイド』をご覧ください。

このページは役に立ちましたか?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
Uipath Logo White
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.