- 概要
- Document Processing Contracts
- リリース ノート
- Document Processing Contracts について
- Box クラス
- IPersistedActivity インターフェイス
- PrettyBoxConverter クラス
- IClassifierActivity インターフェイス
- IClassifierCapabilitiesProvider インターフェイス
- ClassifierDocumentType クラス
- ClassifierResult クラス
- ClassifierCodeActivity クラス
- ClassifierNativeActivity クラス
- ClassifierAsyncCodeActivity クラス
- ClassifierDocumentTypeCapability クラス
- ContentValidationData クラス
- EvaluatedBusinessRulesForFieldValue クラス
- EvaluatedBusinessRuleDetails クラス
- ExtractorAsyncCodeActivity クラス
- ExtractorCodeActivity クラス
- ExtractorDocumentType クラス
- ExtractorDocumentTypeCapabilities クラス
- ExtractorFieldCapability クラス
- ExtractorNativeActivity クラス
- ExtractorResult クラス
- FieldValue クラス
- FieldValueResult クラス
- ICapabilitiesProvider インターフェイス
- IExtractorActivity インターフェイス
- ExtractorPayload クラス
- DocumentActionPriority 列挙型
- DocumentActionData クラス
- DocumentActionStatus 列挙型
- DocumentActionType 列挙型
- DocumentClassificationActionData クラス
- DocumentValidationActionData クラス
- UserData クラス
- Document クラス
- DocumentSplittingResult クラス
- DomExtensions クラス
- Page クラス
- PageSection クラス
- Polygon クラス
- PolygonConverter クラス
- Metadata クラス
- WordGroup クラス
- Word クラス
- ProcessingSource 列挙型
- ResultsTableCell クラス
- ResultsTableValue クラス
- ResultsTableColumnInfo クラス
- ResultsTable クラス
- Rotation 列挙型
- ルール クラス
- RuleResult クラス
- RuleSet クラス
- RuleSetResult クラス
- SectionType 列挙型
- WordGroupType 列挙型
- IDocumentTextProjection インターフェイス
- ClassificationResult クラス
- ExtractionResult クラス
- ResultsDocument クラス
- ResultsDocumentBounds クラス
- ResultsDataPoint クラス
- ResultsValue クラス
- ResultsContentReference クラス
- ResultsValueTokens クラス
- ResultsDerivedField クラス
- ResultsDataSource 列挙型
- ResultConstants クラス
- SimpleFieldValue クラス
- TableFieldValue クラス
- DocumentGroup クラス
- DocumentTaxonomy クラス
- DocumentType クラス
- Field クラス
- FieldType 列挙型
- FieldValueDetails クラス
- LanguageInfo クラス
- MetadataEntry クラス
- TextType 列挙型
- TypeField クラス
- ITrackingActivity インターフェイス
- ITrainableActivity インターフェイス
- ITrainableClassifierActivity インターフェイス
- ITrainableExtractorActivity インターフェイス
- TrainableClassifierAsyncCodeActivity クラス
- TrainableClassifierCodeActivity クラス
- TrainableClassifierNativeActivity クラス
- TrainableExtractorAsyncCodeActivity クラス
- TrainableExtractorCodeActivity クラス
- TrainableExtractorNativeActivity クラス
- BasicDataPoint クラス - プレビュー
- ExtractionResultHandler クラス - プレビュー
- Document Understanding ML
- Document Understanding OCR ローカル サーバー
- Document Understanding
- IntelligentOCR
- リリース ノート
- IntelligentOCR アクティビティ パッケージについて
- プロジェクトの対応 OS
- タクソノミーを読み込み
- ドキュメントをデジタル化
- ドキュメント分類スコープ
- キーワード ベースの分類器
- Document Understanding プロジェクト分類器
- インテリジェント キーワード分類器
- ドキュメント分類アクションを作成
- ドキュメント検証成果物を作成
- ドキュメント検証成果物を取得
- ドキュメント分類アクション完了まで待機し再開
- 分類器トレーニング スコープ
- キーワード ベースの分類器トレーナー
- インテリジェント キーワード分類器トレーナー
- データ抽出スコープ
- Document Understanding プロジェクト抽出器
- Document Understanding プロジェクト抽出器トレーナー
- 正規表現ベースの抽出器
- フォーム抽出器
- インテリジェント フォーム抽出器
- ドキュメントを墨消し
- ドキュメント検証アクションを作成
- ドキュメント検証アクション完了まで待機し再開
- 抽出器トレーニング スコープ
- 抽出結果をエクスポート
- マシン ラーニング抽出器
- マシン ラーニング抽出器トレーナー
- マシン ラーニング分類器
- マシン ラーニング分類器トレーナー
- 生成 AI 分類器
- 生成 AI 抽出器
- 認証を構成する
- ML サービス
- OCR
- OCR Contracts
- リリース ノート
- OCR コントラクトについて
- プロジェクトの対応 OS
- IOCRActivity インターフェイス
- OCRAsyncCodeActivity クラス
- OCRCodeActivity クラス
- OCRNativeActivity クラス
- Character クラス
- OCRResult クラス
- Word クラス
- FontStyles 列挙型
- OCRRotation 列挙型
- OCRCapabilities クラス
- OCRScrapeBase クラス
- OCRScrapeFactory クラス
- ScrapeControlBase クラス
- ScrapeEngineUsages 列挙型
- ScrapeEngineBase
- ScrapeEngineFactory クラス
- ScrapeEngineProvider クラス
- OmniPage
- PDF
- [リストから削除済] ABBYY
- [リストから削除済] ABBYY Embedded
Document Understanding アクティビティ
UiPath.IntelligentOCR.Activities.DocumentClassification.IntelligentKeywordClassifier
説明
このアクティビティでは、すべてのユーザーがドキュメント パッケージを分類して個々のドキュメントの種類に分割できます。[ドキュメント分類スコープ] アクティビティとともにのみ使用できます。
プロジェクトの対応 OS
Windows - レガシ | Windows
構成
デザイナー パネル
-
ラーニング ファイルのパス - 分類器データを含むファイルへのフル パスです。このフィールドは、文字列と
String型の変数のみをサポートします。注:一度に設定できるのは、上記のパラメーターのうち 1 つだけです。[ラーニング データ] 文字列または [ラーニング ファイルのパス] 文字列のいずれかを使用できます。
[ラーニング ファイルのパス] は分類器データを取得する場所から場所を指定します。
[ラーニング データ] は、その分類器の実際の情報が含まれています。
-
エンドポイント - UiPath® サーバーの URL です。既定では、エンドポイントは [
https://du.uipath.com/svc/intelligentkeywords] です。エンドポイントについて詳しくは、「 Document Understanding のパブリック エンドポイント」をご覧ください。 -
API キー - アカウントの API キーを指定します。ローカルのプロジェクト設定または Document Understanding フレームワークで定義されている場合、[API キー] フィールドは自動的に事前入力されます。
プロパティ パネル
共通
- 表示名 - アクティビティの表示名です。
入力
-
API キー - アカウントの API キーを指定します。ローカルのプロジェクト設定または Document Understanding フレームワークで定義されている場合、[API キー] フィールドは自動的に事前入力されます。
-
エンドポイント - UiPath® サーバーの URL です。既定では、エンドポイントは [
https://du.uipath.com/svc/intelligentkeywords] です。エンドポイントについて詳しくは、「 Document Understanding のパブリック エンドポイント」をご覧ください。 -
ラーニング データ - シリアル化された分類器のデータを含む文字列です。このフィールドは、文字列と
String型の変数のみをサポートします。 -
ラーニング ファイルのパス - 分類器データを含むファイルへのフル パスです。このフィールドは、文字列と
String型の変数のみをサポートします。注:一度に設定できるのは、上記のパラメーターのうち 1 つだけです。[ラーニング データ] 文字列または [ラーニング ファイルのパス] 文字列のいずれかを使用できます。
[ラーニング ファイルのパス] は分類器データを取得する場所から場所を指定します。
[ラーニング データ] は、その分類器の実際の情報が含まれています。
-
ドキュメントを送信 - 有効化すると、UiPath® は、アルゴリズムのパフォーマンスを向上させるために参照されているドキュメントを保存できます。この機能を無効化すると、UiPath® はドキュメントを保存できません。どちらの設定であっても、アルゴリズムの動作は影響を受けません。
その他
- プライベート - オンにした場合、変数および引数の値が Verbose レベルでログに出力されなくなります。
注:
ベスト プラクティスは、その場所に空の
.jsonファイルを作成し、その名前を [ラーニング ファイルのパス] フィールドに使用することです。
分割
- ドキュメントの分割を実行 - オフのままにすると、モデルはドキュメントを分割せず、分類のみを実行します。
- ページ番号を使用 - オンにすると、モデルはページ番号機能を使用してドキュメントを分割する場所を決定します。ページ番号を使用すると分割結果が改善される場合に使用します。
最適化された分割パフォーマンスを享受するには、v6.9.0 以降を使用してください。
[学習を管理] ウィザードの使用
[学習を管理] ウィザードにアクセスして、[インテリジェント キーワード分類器] アクティビティを設定します。このウィザードは、ドキュメント分類トレーニング フェーズで収集されたデータをレビューする際にも使用できます。それには、更新されたラーニング ファイルのパスでウィザードを開きます。
このウィザードを使用すると、[インテリジェント キーワード分類器] アクティビティでドキュメントの種類を識別しドキュメントを分類するために使用されるトレーニング データを設定および管理できます。ファイル パスを編集する必要性に合わせて作成されました。代わりに変数付きのラーニング データ オプションが使用される場合、特定のファイル パスを編集するか、この操作を中止するかを確認されます。
[学習を管理] ウィザードは、アクティビティをラーニング ファイルのパス文字列で設定した場合にのみ機能します。変数入力として設定されたラーニング ファイルのパスや、ラーニング データ文字列入力では動作しません。
-
[インテリジェント キーワード分類器] または [インテリジェント キーワード分類器トレーナー] アクティビティをワークフローに追加します。
-
.jsonファイルのパスを追加して、[インテリジェント キーワード分類器] アクティビティを構成します。 分類器を構成する際は、以下の情報を考慮に入れてください。- パスが指定されておらず、[学習を管理] オプションが選択されると、ラーニング ファイルのパスの入力を確認するポップアップが表示されます。パスが指定されると、ウィザードが開きます。
.jsonファイルではなく変数を追加できますが、ウィザードが LearningData 変数に学習パターンを適用することはできないため、編集できる特定のファイルのパスを要求します。
-
[学習を管理] を選択します。
インテリジェント キーワード分類器ウィザードのウィンドウが開きます。
図 1.インテリジェント キーワード分類器ウィザードの [学習を管理] セクションの概要
-
パスが指定されておらず、[学習を管理] オプションが選択されると、ラーニング ファイルのパスを確認するポップアップが表示されます。パスが指定されると、ウィザードが開きます。
図 2. パスが指定されていない場合に [学習を管理] オプションを選択すると表示される警告ポップアップ
注:.jsonファイルが使用できない場合でも、新しい.jsonファイルの名前をアクティビティに直接追加することができ、.jsonファイルが、指定されたフォルダー内に自動的に作成されます。
学習を管理ウィザードでは、ドキュメントの種類の横に「(X) 個のファイルでトレーニングされました」や「トレーニングを開始」などのラベルが表示され、そのドキュメントの種類がトレーニング済みかどうかを確認できます。下記のスクリーンショットは、トレーニング済みのドキュメントの種類、未トレーニングのドキュメントの種類、およびトレーニング済みで選択されていて表示または削除できるドキュメントの種類を示しています。
図 3. インテリジェント キーワード分類器の [学習を管理] セクション内に表示されるドキュメントの種類とそのトレーニング ステータス
トレーニング データ
For document types that have not been trained yet, design-time training can be performed using the Start Training option. For document types that already have some training, you can either delete it to start over, by using the
remove option, or perform extra training (cumulative to the already existing one) using the edit
option.
使用するトレーニング ファイルは、1 つのファイルにつき 1 つのドキュメントの種類を含める必要があります。2 つ以上のドキュメントの種類を含むファイルには、トレーニング データに誤りがあるため、設計時トレーニングを実行しないでください。
新しいトレーニングを開始すると、使用するトレーニング ファイルと OCR エンジンを確認するための新しい画面が表示されます。既定の OCR エンジンは UiPath® Document OCR です。各 OCR エンジンには、それぞれ独自のカスタム オプションが付属しています。
図 4. [トレーニングを開始] オプションを選択した後に表示されるウィザード
以下の OCR エンジンは、回転されたドキュメントをサポートしていないため、そうしたドキュメントの処理には使用しないでください。
- Microsoft OCR
- Tesseract OCR
[ PDF に OCR を適用 ] オプションは、PDF ドキュメントに OCR プロセスを適用するかどうかを指定します。ドロップダウン リストには、次の 3 つのオプションがあります。
- True: [True] に設定すると、ドキュメントのすべての PDF ページに OCR が適用されます。
- False: [False] にすると、デジタル入力されたテキストのみが抽出されます。
- Auto: 既定値は [Auto] で、入力ドキュメントに応じてドキュメントに OCR アルゴリズムを適用する必要があるかどうかを判断します。
UiPath.IntelligentOCR.Activities パッケージが v5.1.0 に更新されている場合、[OCR を強制適用] パラメーターは [PDF に OCR を適用] に置き換えられています。古いパラメーターと新しいパラメーターとの対応は次のとおりです。
- [OCR を強制適用] = [True] は [PDF に OCR を適用] = [はい] に置き換えられます。
- [OCR を強制適用] = [False] は [PDF に OCR を適用] = [自動] に置き換えられます。
- [OCR を強制適用] = [空] は [PDF に OCR を適用] = [自動] に置き換えられます。
- [OCR を強制適用] = ユーザー定義変数は [PDF に OCR を適用] = [自動] に置き換えられます。
トレーニング データをエクスポートする
トレーニング済みのドキュメントの種類から得られたトレーニング データだけをエクスポートすることができます。未トレーニングのドキュメントの種類は選択できません。
図 5. トレーニングされていないために [エクスポート] オプションが利用できない、インテリジェント キーワード分類器のドキュメントの種類
次の手順に従って、トレーニング データをエクスポートできます。
-
トレーニング済みのドキュメントの種類を選択します。
-
[エクスポート] を選択します。
保存していない変更がある場合は、「変更を保存していない間はエクスポートできません。エクスポートする前に自動的に保存しますか?」というメッセージが表示されます。[はい] を選択してエクスポート プロセスを続行します。
図 6. トレーニング データをエクスポートする前に保存されていない変更がある場合に表示される「変更を保存」メッセージ
-
トレーニング データのアーカイブを希望の名前で保存します。
エクスポートされたドキュメントの種類のトレーニング データ セットの数を示すメッセージが表示されます。たとえば、「4 個の単語ベクトルをエクスポートしました。」と表示されます。
図 7. エクスポートされたドキュメントの種類のトレーニング データ セットの数を示すメッセージの例
-
[OK] を選択して、ウィザードのメイン画面に戻ります。
トレーニング データをインポートする
次の手順に従って、トレーニング データをインポートできます。
-
[インポート] を選択します。
-
トレーニング データのアーカイブを選択し、[開く] を選択します。
-
必要なドキュメントの種類を選択します。
図 8. [単語ベクトルをインポート] セクションで選択されたドキュメントの種類
-
[インポート] を選択します。
トレーニング データがインポートされます。
図 9. 以前にインポート対象として選択したドキュメントの種類が [学習を管理] セクションに表示された状態
以下の表は、トレーニング データのインポート時にインポートの種類に基づいて表示されるメッセージについて説明しています。
表 1.さまざまなインポートの種類に対して表示されるメッセージ
| 表示されるメッセージ | |
|---|---|
| 新しいドキュメントの種類と単語ベクトル | このドキュメントの種類は、タクソノミーに追加されます。 |
| 新しい単語ベクトル (いずれも定義されたことがないもの) | メッセージは表示されません。 |
| 同一のドキュメントの種類と単語ベクトル | このドキュメントの種類の単語ベクトルは上書きされます。 |
Document Understanding との連携
[インテリジェント キーワード分類器] アクティビティは、Document Understanding のソリューションに含まれます。詳細については、『 Document Understanding ガイド 』をご覧ください。