- 概要
- Document Processing Contracts
- リリース ノート
- Document Processing Contracts について
- Box クラス
- IPersistedActivity インターフェイス
- PrettyBoxConverter クラス
- IClassifierActivity インターフェイス
- IClassifierCapabilitiesProvider インターフェイス
- ClassifierDocumentType クラス
- ClassifierResult クラス
- ClassifierCodeActivity クラス
- ClassifierNativeActivity クラス
- ClassifierAsyncCodeActivity クラス
- ClassifierDocumentTypeCapability クラス
- ExtractorAsyncCodeActivity クラス
- ExtractorCodeActivity クラス
- ExtractorDocumentType クラス
- ExtractorDocumentTypeCapabilities クラス
- ExtractorFieldCapability クラス
- ExtractorNativeActivity クラス
- ExtractorResult クラス
- ICapabilitiesProvider インターフェイス
- IExtractorActivity インターフェイス
- ExtractorPayload クラス
- DocumentActionPriority 列挙型
- DocumentActionData クラス
- DocumentActionStatus 列挙型
- DocumentActionType 列挙型
- DocumentClassificationActionData クラス
- DocumentValidationActionData クラス
- UserData クラス
- Document クラス
- DocumentSplittingResult クラス
- DomExtensions クラス
- Page クラス
- PageSection クラス
- Polygon クラス
- PolygonConverter クラス
- Metadata クラス
- WordGroup クラス
- Word クラス
- ProcessingSource 列挙型
- ResultsTableCell クラス
- ResultsTableValue クラス
- ResultsTableColumnInfo クラス
- ResultsTable クラス
- Rotation 列挙型
- SectionType 列挙型
- WordGroupType 列挙型
- IDocumentTextProjection インターフェイス
- ClassificationResult クラス
- ExtractionResult クラス
- ResultsDocument クラス
- ResultsDocumentBounds クラス
- ResultsDataPoint クラス
- ResultsValue クラス
- ResultsContentReference クラス
- ResultsValueTokens クラス
- ResultsDerivedField クラス
- ResultsDataSource 列挙型
- ResultConstants クラス
- SimpleFieldValue クラス
- TableFieldValue クラス
- DocumentGroup クラス
- DocumentTaxonomy クラス
- DocumentType クラス
- Field クラス
- FieldType 列挙型
- LanguageInfo クラス
- MetadataEntry クラス
- TextType 列挙型
- TypeField クラス
- ITrackingActivity インターフェイス
- ITrainableActivity インターフェイス
- ITrainableClassifierActivity インターフェイス
- ITrainableExtractorActivity インターフェイス
- TrainableClassifierAsyncCodeActivity クラス
- TrainableClassifierCodeActivity クラス
- TrainableClassifierNativeActivity クラス
- TrainableExtractorAsyncCodeActivity クラス
- TrainableExtractorCodeActivity クラス
- TrainableExtractorNativeActivity クラス
- Document Understanding Digitizer
- Document Understanding ML
- Document Understanding OCR ローカル サーバー
- Document Understanding
- IntelligentOCR
- リリース ノート
- IntelligentOCR アクティビティ パッケージについて
- プロジェクトの対応 OS
- 認証を構成する
- タクソノミーを読み込み
- ドキュメントをデジタル化
- ドキュメント分類スコープ
- キーワード ベースの分類器
- Document Understanding プロジェクト分類器
- インテリジェント キーワード分類器
- ドキュメント分類アクションを作成
- ドキュメント分類アクション完了まで待機し再開
- 分類器トレーニング スコープ
- キーワード ベースの分類器トレーナー
- インテリジェント キーワード分類器トレーナー
- データ抽出スコープ
- Document Understanding プロジェクト抽出器
- 正規表現ベースの抽出器
- フォーム抽出器
- インテリジェント フォーム抽出器
- 検証ステーションを提示
- ドキュメント検証アクションを作成
- ドキュメント検証アクション完了まで待機し再開
- 抽出器トレーニング スコープ
- 抽出結果をエクスポート
- ML サービス
- OCR
- OCR Contracts
- リリース ノート
- OCR コントラクトについて
- プロジェクトの対応 OS
- IOCRActivity インターフェイス
- OCRAsyncCodeActivity クラス
- OCRCodeActivity クラス
- OCRNativeActivity クラス
- Character クラス
- OCRResult クラス
- Word クラス
- FontStyles 列挙型
- OCRRotation 列挙型
- OCRCapabilities クラス
- OCRScrapeBase クラス
- OCRScrapeFactory クラス
- ScrapeControlBase クラス
- ScrapeEngineUsages 列挙型
- ScrapeEngineBase
- ScrapeEngineFactory クラス
- ScrapeEngineProvider クラス
- OmniPage
- PDF
- [リストから削除済] ABBYY
- [リストから削除済] ABBYY Embedded
Document Understanding アクティビティ
インテリジェント キーワード分類器
UiPath.IntelligentOCR.Activities.DocumentClassification.IntelligentKeywordClassifier
このアクティビティでは、すべてのユーザーがドキュメント パッケージを分類して個々のドキュメントの種類に分割できます。[ドキュメント分類スコープ] アクティビティとともにのみ使用できます。
デザイナー パネル
- ラーニング ファイルのパス - 分類器データを含むファイルへのフル パスです。このフィールドは、文字列と
String
型変数のみをサポートします。注:一度に設定できるのは、上記のパラメーターのうち 1 つだけです。[ラーニング データ] 文字列または [ラーニング ファイルのパス] 文字列のいずれかを使用できます。
[ラーニング ファイルのパス] は分類器データを取得する場所から場所を指定します。
[ラーニング データ] は、その分類器の実際の情報が含まれています。
- エンドポイント - UiPath® サーバーの URL です。既定のエンドポイントは
https://du.uipath.com/svc/intelligentkeywords
です。エンドポイントについて詳しくは、「Document Understanding のパブリック エンドポイント」をご覧ください。 - API キー - アカウントの API キーを指定します。ローカルのプロジェクト設定または Document Understanding フレームワークで定義されている場合、[API キー] フィールドは自動的に事前入力されます。
プロパティ パネル
共通
- 表示名 - アクティビティの表示名です。
入力
- API キー - アカウントの API キーを指定します。ローカルのプロジェクト設定または Document Understanding フレームワークで定義されている場合、[API キー] フィールドは自動的に事前入力されます。
- エンドポイント - UiPath® サーバーの URL です。既定のエンドポイントは
https://du.uipath.com/svc/intelligentkeywords
です。エンドポイントについて詳しくは、「Document Understanding のパブリック エンドポイント」をご覧ください。 - ラーニング データ - シリアル化された分類器のデータを含む文字列です。このフィールドは、文字列と
String
型変数のみをサポートします。 - ラーニング ファイルのパス - 分類器データを含むファイルへのフル パスです。このフィールドは、文字列と
String
型変数のみをサポートします。注:一度に設定できるのは、上記のパラメーターのうち 1 つだけです。[ラーニング データ] 文字列または [ラーニング ファイルのパス] 文字列のいずれかを使用できます。
[ラーニング ファイルのパス] は分類器データを取得する場所から場所を指定します。
[ラーニング データ] は、その分類器の実際の情報が含まれています。
- ドキュメントを送信 - 有効化すると、UiPath® は、アルゴリズムのパフォーマンスを向上させるために参照されているドキュメントを保存できます。この機能を無効化すると、UiPath® はドキュメントを保存できません。どちらの設定であっても、アルゴリズムの動作は影響を受けません。
その他
- プライベート - オンにした場合、変数および引数の値が Verbose レベルでログに出力されなくなります。
注: ベスト プラクティスは、その場所に空の
.json
ファイルを作成し、その名前を [ラーニング ファイルのパス] フィールドに使用することです。
分割
- ドキュメントの分割を実行 - オフのままにすると、モデルはドキュメントを分割せず、分類のみを実行します。
- ページ番号を使用 - オンにすると、モデルはページ番号機能を使用してドキュメントを分割する場所を決定します。ページ番号を使用すると分割結果が改善される場合に使用します。
[学習を管理] ウィザードにアクセスして、[インテリジェント キーワード分類器] アクティビティを設定します。このウィザードは、ドキュメント分類トレーニング フェーズで収集されたデータをレビューする際にも使用できます。それには、更新されたラーニング ファイルのパスでウィザードを開きます。
このウィザードを使用すると、[インテリジェント キーワード分類器] アクティビティでドキュメントの種類を識別しドキュメントを分類するために使用されるトレーニング データを設定および管理できます。ファイル パスを編集する必要性に合わせて作成されました。代わりに変数付きのラーニング データ オプションが使用される場合、特定のファイル パスを編集するか、この操作を中止するかを確認されます。
- [インテリジェント キーワード分類器] または [インテリジェント キーワード分類器トレーナー] アクティビティをワークフローに追加します。
.json
ファイルのパスを追加して、[インテリジェント キーワード分類器] アクティビティを構成します。分類器を構成する際は、以下の情報を考慮に入れてください。- パスが指定されておらず、[学習を管理] オプションが選択されると、ラーニング ファイルのパスの入力を確認するポップアップが表示されます。パスが指定されると、ウィザードが開きます。
.json
ファイルではなく変数を追加できますが、ウィザードが LearningData 変数に学習パターンを適用することはできないため、編集できる特定のファイルのパスを要求します。
- [学習を管理] を選択します。
インテリジェント キーワード分類器ウィザードのウィンドウが開きます。図 1. インテリジェント キーワード分類器ウィザードの [学習を管理] セクションの概要
- パスが指定されておらず、[学習を管理] オプションが選択されると、ラーニング ファイルのパスを確認するポップアップが表示されます。パスが指定されると、ウィザードが開きます。
図 2. パスが指定されていない場合に [学習を管理] オプションを選択すると表示される警告ポップアップ
注:.json
ファイルが使用できない場合でも、新しい.json
ファイルの名前をアクティビティに直接追加することができ、.json
ファイルが、指定されたフォルダー内に自動的に作成されます。
学習を管理ウィザードでは、ドキュメントの種類の横に「(X) 個のファイルでトレーニングされました」や「トレーニングを開始」などのラベルが表示され、そのドキュメントの種類がトレーニング済みかどうかを確認できます。下記のスクリーンショットは、トレーニング済みのドキュメントの種類、未トレーニングのドキュメントの種類、およびトレーニング済みで選択されていて表示または削除できるドキュメントの種類を示しています。
未トレーニングのドキュメントの種類に対しては、[トレーニングを開始] オプションを使用して設計時トレーニングを実行できます。一部トレーニングを実行済みのドキュメントの種類に対しては、削除 オプションを使用して削除してからやり直すか、編集 オプションを使用して既存のトレーニングに対する追加のトレーニングを実行できます。
新しいトレーニングを開始すると、使用するトレーニング ファイルと OCR エンジンを確認するための新しい画面が表示されます。既定の OCR エンジンは UiPath® Document OCR です。各 OCR エンジンには、それぞれ独自のカスタム オプションが付属しています。
以下の OCR エンジンは、回転されたドキュメントをサポートしていないため、そうしたドキュメントの処理には使用しないでください。
- Microsoft OCR
- Tesseract OCR
- True: [True] に設定すると、ドキュメントのすべての PDF ページに OCR が適用されます。
- False: [False] にすると、デジタル入力されたテキストのみが抽出されます。
- Auto: 既定値は [Auto] で、入力ドキュメントに応じてドキュメントに OCR アルゴリズムを適用する必要があるかどうかを判断します。
- [OCR を強制適用] = [True] は [PDF に OCR を適用] = [はい] に置き換えられます。
- [OCR を強制適用] = [False] は [PDF に OCR を適用] = [自動] に置き換えられます。
- [OCR を強制適用] = [空] は [PDF に OCR を適用] = [自動] に置き換えられます。
- [OCR を強制適用] = ユーザー定義変数は [PDF に OCR を適用] = [自動] に置き換えられます。
トレーニング済みのドキュメントの種類から得られたトレーニング データだけをエクスポートすることができます。未トレーニングのドキュメントの種類は選択できません。
次の手順に従って、トレーニング データをエクスポートできます。
- トレーニング済みのドキュメントの種類を選択します。
- [エクスポート] を選択します。
保存していない変更がある場合は、「変更を保存していない間はエクスポートできません。エクスポートする前に自動的に保存しますか?」というメッセージが表示されます。[はい] を選択してエクスポート プロセスを続行します。図 6. トレーニング データをエクスポートする前に保存されていない変更がある場合に表示される「変更を保存」メッセージ
- トレーニング データのアーカイブを希望の名前で保存します。
エクスポートされたドキュメントの種類のトレーニング データ セットの数を示すメッセージが表示されます。たとえば、「4 個の単語ベクトルをエクスポートしました。」と表示されます。図 7. エクスポートされたドキュメントの種類のトレーニング データ セットの数を示すメッセージの例
- [OK] を選択して、ウィザードのメイン画面に戻ります。
次の手順に従って、トレーニング データをインポートできます。
- [インポート] を選択します。
- トレーニング データのアーカイブを選択し、[開く] を選択します。
- 必要なドキュメントの種類を選択します。
図 8. [単語ベクトルをインポート] セクションで選択されたドキュメントの種類
- [インポート] を選択します。
トレーニング データがインポートされます。図 9. 以前にインポート対象として選択したドキュメントの種類が [学習を管理] セクションに表示された状態
以下の表は、トレーニング データのインポート時にインポートの種類に基づいて表示されるメッセージについて説明しています。
表示されるメッセージ | |
---|---|
新しいドキュメントの種類と単語ベクトル |
このドキュメントの種類は、タクソノミーに追加されます。 |
新しい単語ベクトル (いずれも定義されたことがないもの) |
メッセージは表示されません。 |
同一のドキュメントの種類と単語ベクトル |
このドキュメントの種類の単語ベクトルは上書きされます。 |
[インテリジェント キーワード分類器] アクティビティは、Document Understanding のソリューションに含まれます。詳細については、『Document Understanding ガイド』をご覧ください。