document-understanding
2021.10
false
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。 新しいコンテンツの翻訳は、およそ 1 ~ 2 週間で公開されます。
UiPath logo, featuring letters U and I in white
サポート対象外

Document Understanding ガイド

Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
最終更新日時 2024年11月11日

インテリジェント キーワード分類器

インテリジェント キーワード分類器とは

インテリジェント キーワード分類器は、特定のドキュメントの種類のファイルから学習した単語ベクトルを使用して、ドキュメントの分類を実行する分類器です。

このアルゴリズムは、同じドキュメントの種類に対してコンテンツを繰り返すという概念を基に構築されており、ドキュメントの種類にはそれらのドキュメントの種類で通常発生する一連の単語があることを前提としています。これにより、ベクトル類似度の計算が可能になっています。

ファイルをドキュメントの種類に分類する際、インテリジェント キーワード分類器は以下を行います。

  • ファイルが最も類似する単語ベクトルを検索します。
  • 最もスコアが高いドキュメントの種類と、元になる主な一致単語を報告します。

インテリジェント キーワード分類器 にはファイル分割機能もあるため、特定のファイルの別個のページ範囲に対して複数のクラスを報告できます。

使用すべきタイミング

以下の場合、この分類器の使用を検討する必要があります。

  • 単一ファイルに 1 つ以上のドキュメントの種類が含まれる場合
  • コンテンツに関する限り、ドキュメントの種類を比較的容易に区別できる場合

特別な要件

この分類器を使用するには、Automation Cloud Document Understanding の API キーを使用するか、オンプレミスの AI Center でインテリジェント キーワード分類器の独自インスタンスをホストする必要があります。

設計時の設定方法

インテリジェント キーワード分類器 は、設計時にアクティビティの 学習を管理ウィザードにアクセスするだけで設定できます。このウィザードは、ドキュメント分類トレーニング フェーズで収集されたデータをレビューする際にも使用できます。それには、更新されたラーニング ファイルのパスでウィザードを開きます。

このウィザードを使用すると、このアクティビティでドキュメントの種類を識別しドキュメントを分類するために使用されるトレーニング データを設定および管理できます。ファイル パスを編集する必要性に合わせて作成されました。代わりに変数付きのトレーニング データ オプションが使用される場合、特定のファイル パスを編集するか、この操作を中止するかを確認されます。

注: [学習を管理] ウィザードは、アクティビティをラーニング ファイルのパス文字列で設定した場合にのみ機能します。変数入力として設定されたラーニング ファイルのパスや、ラーニング データ文字列入力では動作しません。
  1. [インテリジェント キーワード分類器]/[インテリジェント キーワード分類器トレーナー] アクティビティをワークフローに追加します。
  2. .json ファイルのパスを追加して、[インテリジェント キーワード分類器] アクティビティを構成します。
    • パスが指定されておらず、[学習の管理] オプションがクリックされると、学習ファイルのパスの入力を確認するポップアップが表示されます。パスが指定されると、ウィザードが開きます。
    • .json ファイルではなく変数を追加できますが、ウィザードが LearningData 変数に学習パターンを適用することはできないため、編集できる特定のファイルのパスを要求します。
  3. [学習を管理] オプションをクリックします。
    • [ウィザード] ウィンドウが開きます。


  4. パスが指定されておらず、[学習の管理] オプションがクリックされると、学習ファイルのパスを確認するポップアップが表示されます。パスが指定されると、ウィザードが開きます。


    注: .json ファイルが使用できない場合でも、新しい .json ファイルの名前をアクティビティに直接追加することができ、.json ファイルが、指定されたフォルダー内に自動的に作成されます。

下記のスクリーンショットは、トレーニング済み、未トレーニング、トレーニング済みで表示または削除を目的としてアクセスされたドキュメントの種類を示しています。



未トレーニングのドキュメントの種類に対しては、[トレーニングを開始] オプションを使用して設計時トレーニングを実行できます。一部トレーニングを実行済みのドキュメントの種類に対しては、削除 オプションを使用して削除してからやり直すか、編集 オプションを使用して既存のトレーニングに対する追加のトレーニングを実行できます。

注: 使用するトレーニング ファイルは、1 つのファイルにつき 1 つのドキュメントの種類を含める必要があります。2 つ以上のドキュメントの種類を含むファイルには、トレーニング データに誤りがあるため、設計時トレーニングを実行しないでください。

新しいトレーニングを開始すると、使用するトレーニング ファイルと OCR エンジンを確認するための新しい画面が表示されます。



各 OCR エンジンには、それぞれ独自のカスタム オプションが付属しています。各 OCR エンジンで利用可能なすべてのオプションに関する詳細は、こちらをご覧ください。

注:

以下の OCR エンジンは、回転されたドキュメントをサポートしていないため、そうしたドキュメントの処理には使用しないでください。

  • Microsoft OCR
  • Tesseract OCR

トレーニング済みのドキュメントの種類から得られたトレーニング データだけをエクスポートすることができます。未トレーニングのドキュメントの種類は選択できません。



トレーニング データをエクスポートする

次の手順に従って、トレーニング データをエクスポートできます。

  1. トレーニング済みのドキュメントの種類を選択します。
  2. [エクスポート] ボタンをクリックします。
  3. 保存されていない変更がある場合は、次のメッセージが表示されます。


  4. [はい] をクリックします。
  5. トレーニング データのアーカイブを希望の名前で保存します。
  6. エクスポートされたドキュメントの種類のトレーニング データ セットの数を示すメッセージが表示されます。たとえば、次のようになります。


  7. [OK] をクリックして、ウィザードのメイン画面に戻ります。

トレーニング データをインポートする

次の手順に従って、トレーニング データをインポートできます。

  1. [インポート] ボタンをクリックします。
  2. トレーニング データのアーカイブを選択し、[開く] をクリックします。
  3. 必要なドキュメントの種類を選択します。


  4. [インポート] ボタンをクリックします。
  5. トレーニング データがインポートされます。


以下の表は、トレーニング データのインポート時に表示される各メッセージについて説明しています。

インポートの種類

表示されるメッセージ

新しいドキュメントの種類と単語ベクトル

このドキュメントの種類は、タクソノミーに追加されます。

新しい単語ベクトル (いずれも定義されたことがないもの)

N/A

同一のドキュメントの種類と単語ベクトル

このドキュメントの種類の単語ベクトルは上書きされます。

トレーニング方法

[インテリジェント キーワード分類器トレーナー] アクティビティを [分類器トレーニング スコープ] 内に配置して、適宜設定します。

並行して実行される複数のトレーニングにおいて、トレーニング ファイルの整合性をアクティビティ レベルで確保することはできません。この問題の 2 つの解決策が、Document Understanding Process (Studio テンプレート) で提供されています。どちらの解決策も、トラフィック制御によるものです。

  1. ファイルのロック (プロセス内で既定で実行): 拡張子 .lock を使用してファイル名を変更し、ファイルを修正後に保存します。次に、再度ファイル名を変更し、拡張子 .lock を削除します。
  2. 特殊キューの手動セットアップ: Orchestrator 内に空のキューを作成し、プロジェクトの 2 つのアクティビティを統合します。

分類器のトレーニング方法について詳しくは、「ドキュメント分類トレーニング」をご覧ください。

このページは役に立ちましたか?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
Uipath Logo White
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.