アクティビティ - ドキュメントをデジタル化

activities

latest

false

Document Understanding アクティビティ

重要 :

このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

ドキュメントをデジタル化

[ドキュメントをデジタル化] アクティビティ: 割り当てられた OCR エンジンを使用して、ドキュメントからドキュメントオブジェクトモデルとテキストを抽出します。

UiPath.IntelligentOCR.Activities.Digitization.DigitizeDocument

説明

ドキュメントをデジタル化し、Document Object Model (DOM) とテキストを取得して、対応する変数型に格納します。

注:

アクティビティの本体にドラッグして OCR エンジンをこのアクティビティに割り当てる必要があります。選択した OCR エンジンは、受け取ったドキュメントで OCR 処理が必要な場合にのみ使用されます。利用可能な OCR エンジンを確認するには、「OCR エンジン」をご覧ください。選択された OCR エンジンの入力および出力パラメーターは、[ドキュメントをデジタル化] アクティビティによって自動的に設定されます。

プロジェクトの対応 OS

Windows

構成

プロパティパネル

共通

表示名 - アクティビティの表示名です。

入力

PDF に OCR を適用 - PDF ドキュメントに OCR プロセスを適用するかどうかを指定します。[はい] に設定すると、ドキュメントのすべての PDF ページに OCR が適用されます。[いいえ]にすると、デジタル入力されたテキストのみが抽出されます。既定値は [Auto] で、入力ドキュメントに応じてドキュメントに OCR アルゴリズムを適用する必要があるかを判断します。
並列度 - 並列で分析するページ数を指定します (該当する場合)。-1値は「マシン上のコア数 - 1」を使用します。つまり、アクティビティはコア数 - 1 の値と同じ数のページを並列処理しようとします。正の値を指定すると、その特定の数の論理プロセッサが使用されます。既定では、このプロパティは -1に設定されます。

このプロパティには、LogicalProcessorCount - 1 より小さい任意の値を設定できます。
チェックボックスを検出 - ドキュメントのデジタル化中に、利用可能なチェックボックスをドキュメントから検出します。既定値は [True] です。
ドキュメントパス - デジタル化するドキュメントのファイルパスです。このフィールドは、文字列と String 型変数のみをサポートします。
注:
- デジタル化の出力を破損し、最適でない抽出や分類につながる可能性があるロゴ、非表示の画像、またはその他の要素を含むネイティブ PDF ドキュメントの場合は、[PDF に OCR を適用] プロパティを [はい] に設定します。
- PDF ファイルからのテキスト抽出機能がアップグレードされました。これにより抽出プロセスが最適化され、ネイティブテキストとスキャンされたテキストの両方が同時に取得されます。OCR は、PDF ファイル内の認識された画像にのみ適用されます。この改良は、[PDF に OCR を適用] オプションが [自動] に設定されている場合にのみ利用可能です。
注:
このプロパティフィールドでサポートされているファイルは、 .png、 .jpe、 .jpg、 .jpeg、 .tiff、 .tif、および .pdfです。

その他

プライベート - オンにした場合、変数および引数の値が Verbose レベルでログに出力されなくなります。

出力

ドキュメントオブジェクトモデル - Document 変数に格納されている、ファイルのドキュメントオブジェクトモデル (DOM)。このフィールドでは Document 変数のみをサポートします。
ドキュメントテキスト - 指定したドキュメントから取得したテキストです。この変数は後ほど [検証ステーションを提示] アクティビティで使用されます。このフィールドでは String 型の変数のみがサポートされています。
注:
UiPath.IntelligentOCR.Activities パッケージ v6.3.0-preview より、[ ドキュメントをデジタル化 ] アクティビティには、事前に選択された既定の OCR エンジンである UiPath® Document OCR エンジンが付属します。

出力変数は両方とも、依存関係にあるためペアになっており、ドキュメント処理フレームワーク全体 (分類、データ抽出、人間による検証など) を通してドキュメント処理でさらに使用できます。

重要

UiPath.IntelligentOCR.Activities パッケージが v5.1.0 に更新されている場合、[OCR を強制適用] パラメーターは [PDF に OCR を適用] に置き換えられています。古いパラメーターと新しいパラメーターとの対応は次のとおりです。

[OCR を強制適用] = [True] は [PDF に OCR を適用] = [はい] に置き換えられます。
[OCR を強制適用] = [False] は [PDF に OCR を適用] = [自動] に置き換えられます。
[OCR を強制適用] = [空] は [PDF に OCR を適用] = [自動] に置き換えられます。
[OCR を強制適用] = ユーザー定義変数は [PDF に OCR を適用] = [自動] に置き換えられます。

注:

[ドキュメントをデジタル化] アクティビティは PDF ファイルからテキストを抽出し、複雑なドキュメントの場合は前処理と後処理のアルゴリズムを適用します。このアクティビティは、他の Document Understanding アクティビティと併用できます。

Document Object Model

ドキュメントオブジェクトモデルは、独自のオブジェクトでキャプチャされます。詳細については、「 Document クラス」をご覧ください。

ヒント:

ドキュメントを正常にデジタル化および処理するには、次のアドバイスを考慮に入れてください。

画像を正常にデジタル化/処理するには、幅と高さをそれぞれ 50 から 10000 ピクセルにする必要があります。この範囲を下回る、または上回る画像は、例外メッセージが表示されて却下されます。上述の寸法で検証された、合計サイズが 14 MP を超える画像は、縦横比 (幅または高さの比率) を維持しながら 14 MP に縮小されます。
傾斜角度を +/- 20 度に保つことで最適な結果が得られます。

[ドキュメントをデジタル化] アクティビティの使用例

[ドキュメントをデジタル化] アクティビティの使い方を、複数のアクティビティを組み込んだサンプルで確認するには、「ドキュメントのデジタル化の手動検証」をご覧ください。

説明
プロジェクトの対応 OS
構成
プロパティパネル
重要
Document Object Model
[ドキュメントをデジタル化] アクティビティの使用例

このページは役に立ちましたか?

前へタクソノミーを読み込み

次へドキュメント分類スコープ

説明​

プロジェクトの対応 OS​

構成​

プロパティ パネル​

共通​

入力​

その他​

出力​

重要​

Document Object Model​

[ドキュメントをデジタル化] アクティビティの使用例​

このページは役に立ちましたか?

説明

プロジェクトの対応 OS

構成

プロパティパネル

共通

入力

その他

出力

重要

Document Object Model

[ドキュメントをデジタル化] アクティビティの使用例