アクティビティ

インテリジェントキーワード分類器

UiPath.IntelligentOCR.Activities.DocumentClassification.IntelligentKeywordClassifier

このアクティビティにより、すべてのユーザーが、ドキュメントパッケージを個々のドキュメントの種類に分類および分割できます。

[ドキュメント分類スコープ] アクティビティとともにのみ使用できます。

プロパティ

共通

表示名 - アクティビティの表示名です。

入力

API キー - アカウントの API キーを指定します。ローカルのプロジェクト設定または Document Understanding フレームワークで定義されている場合、[API キー] フィールドは自動的に事前入力されます。
エンドポイント - UiPath サーバーの URL です。既定のエンドポイントは https://du.uipath.com/svc/intelligentkeywords です。詳細については、「Document Understanding のパブリックエンドポイント」をご覧ください。
LearningData - シリアル化された分類器のデータを含む文字列です。このフィールドは、文字列と String 型変数のみをサポートします。
ラーニングファイルのパス - 分類器データを含むファイルへのフルパスです。このフィールドは、文字列と String 型変数のみをサポートします。
注:
一度に設定できるのは、上記のパラメーターのうち 1 つだけです。[ラーニングデータ] 文字列または [ラーニングファイルのパス] 文字列のいずれかを使用できます。

[ラーニングファイルのパス] は分類器データを取得する場所から場所を指定します。

[ラーニングデータ] は、その分類器の実際の情報が含まれています。
ドキュメントを送信 - より良いサポート、トラブルシューティング、パフォーマンスの向上のため、ドキュメントを送信します。

その他

プライベート - オンにした場合、変数および引数の値が Verbose レベルでログに出力されなくなります。
注: ベストプラクティスは、その場所に空の .json ファイルを作成し、その名前を [ラーニングファイルのパス] フィールドに使用することです。

分割

ドキュメントの分割を実行 - オフのままにすると、モデルはドキュメントを分割せず、分類のみを実行します。
ページ番号を使用 - オンにすると、モデルはページ番号機能を使用してドキュメントを分割する場所を決定します。ページ番号を使用すると分割結果が改善される場合に使用します。

注: v6.9.0 から、[インテリジェントキーワード分類器] アクティビティの分割パフォーマンスが向上しました。最適化された分割パフォーマンスを享受するには、v6.9.0 以降を使用してください。

[学習を管理] ウィザードの使用

[学習を管理] ウィザードにアクセスして、[インテリジェントキーワード分類器] アクティビティを設定します。このウィザードは、ドキュメント分類トレーニングフェーズで収集されたデータをレビューする際にも使用できます。それには、更新されたラーニングファイルのパスでウィザードを開きます。

このウィザードを使用すると、[インテリジェントキーワード分類器] アクティビティでドキュメントの種類を識別しドキュメントを分類するために使用されるトレーニングデータを設定および管理できます。ファイルパスを編集する必要性に合わせて作成されました。代わりに変数付きのラーニングデータ オプションが使用される場合、特定のファイルパスを編集するか、この操作を中止するかを確認されます。

注: [学習を管理] ウィザードは、アクティビティをラーニングファイルのパス文字列で設定した場合にのみ機能します。変数入力として設定されたラーニングファイルのパスや、ラーニングデータ文字列入力では動作しません。

[インテリジェントキーワード分類器]/[インテリジェントキーワード分類器トレーナー] アクティビティをワークフローに追加します。
.json ファイルのパスを追加して、[インテリジェントキーワード分類器] アクティビティを構成します。
- パスが指定されておらず、[学習の管理] オプションがクリックされると、学習ファイルのパスの入力を確認するポップアップが表示されます。パスが指定されると、ウィザードが開きます。
- .json ファイルではなく変数を追加できますが、ウィザードが LearningData 変数に学習パターンを適用することはできないため、編集できる特定のファイルのパスを要求します。
[学習を管理] オプションをクリックします。
- [ウィザード] ウィンドウが開きます。

パスが指定されておらず、[学習の管理] オプションがクリックされると、学習ファイルのパスを確認するポップアップが表示されます。パスが指定されると、ウィザードが開きます。

注: .json ファイルが使用できない場合でも、新しい .json ファイルの名前をアクティビティに直接追加することができ、.json ファイルが、指定されたフォルダー内に自動的に作成されます。

下記のスクリーンショットは、トレーニング済み、未トレーニング、トレーニング済みで表示または削除を目的としてアクセスされたドキュメントの種類を示しています。

未トレーニングのドキュメントの種類に対しては、[トレーニングを開始] オプションを使用して設計時トレーニングを実行できます。一部トレーニングを実行済みのドキュメントの種類に対しては、削除オプションを使用して削除してからやり直すか、編集オプションを使用して既存のトレーニングに対する追加のトレーニングを実行できます。

注: 使用するトレーニングファイルは、1 つのファイルにつき 1 つのドキュメントの種類を含める必要があります。2 つ以上のドキュメントの種類を含むファイルには、トレーニングデータに誤りがあるため、設計時トレーニングを実行しないでください。

新しいトレーニングを開始すると、使用するトレーニングファイルと OCR エンジンを確認するための新しい画面が表示されます。既定の OCR エンジンは UiPath ドキュメント OCR です。

各 OCR エンジンには、それぞれ独自のカスタムオプションが付属しています。

注:

以下の OCR エンジンは、回転されたドキュメントをサポートしていないため、そうしたドキュメントの処理には使用しないでください。

Microsoft OCR
Tesseract OCR

[PDF に OCR を適用] オプションは、PDF ドキュメントに OCR プロセスを適用するかどうかを指定します。ドロップダウンリストには、[True]、[False]、[自動] の 3 つのオプションがあります。

[True] に設定すると、ドキュメントのすべての PDF ページに OCR が適用されます。[False] にすると、デジタル入力されたテキストのみが抽出されます。既定値は [Auto] で、入力ドキュメントに応じてドキュメントに OCR アルゴリズムを適用する必要があるかを判断します。

注:

UiPath.IntelligentOCR.Activities パッケージが v5.1.0 に更新されている場合、[OCR を強制適用] パラメーターは [PDF に OCR を適用] に置き換えられています。古いパラメーターと新しいパラメーターとの対応は次のとおりです。

• [OCR を強制適用] = [True] は [PDF に OCR を適用] = [はい] に置き換えられています

• [OCR を強制適用] = [False] は [PDF に OCR を適用 = [自動] に置き換えられています

• [OCR を強制適用] = [空] は [PDF に OCR を適用] = [自動] に置き換えられています

• [OCR を強制適用] = <ユーザー定義変数> は [PDF に OCR を適用] = [自動] に置き換えられています

トレーニング済みのドキュメントの種類から得られたトレーニングデータだけをエクスポートすることができます。未トレーニングのドキュメントの種類は選択できません。

トレーニングデータをエクスポートする

次の手順に従って、トレーニングデータをエクスポートできます。

トレーニング済みのドキュメントの種類を選択します。
[エクスポート] ボタンをクリックします。
保存されていない変更がある場合は、次のメッセージが表示されます。
[はい] をクリックします。
トレーニングデータのアーカイブを希望の名前で保存します。
エクスポートされたドキュメントの種類のトレーニングデータセットの数を示すメッセージが表示されます。たとえば、次のようになります。
[OK] をクリックして、ウィザードのメイン画面に戻ります。

トレーニングデータをインポートする

次の手順に従って、トレーニングデータをインポートできます。

[インポート] ボタンをクリックします。
トレーニングデータのアーカイブを選択し、[開く] をクリックします。
必要なドキュメントの種類を選択します。
[インポート] ボタンをクリックします。
トレーニングデータがインポートされます。

以下の表は、トレーニングデータのインポート時に表示される各メッセージについて説明しています。

インポートの種類	表示されるメッセージ
新しいドキュメントの種類と単語ベクトル	このドキュメントの種類は、タクソノミーに追加されます。
新しい単語ベクトル (いずれも定義されたことがないもの)	N/A
同一のドキュメントの種類と単語ベクトル	このドキュメントの種類の単語ベクトルは上書きされます。