activities
latest
false
- 概要
- Document Processing Contracts
- リリース ノート
- Document Processing Contracts について
- Box クラス
- IPersistedActivity インターフェイス
- PrettyBoxConverter クラス
- IClassifierActivity インターフェイス
- IClassifierCapabilitiesProvider インターフェイス
- ClassifierDocumentType クラス
- ClassifierResult クラス
- ClassifierCodeActivity クラス
- ClassifierNativeActivity クラス
- ClassifierAsyncCodeActivity クラス
- ClassifierDocumentTypeCapability クラス
- ExtractorAsyncCodeActivity クラス
- ExtractorCodeActivity クラス
- ExtractorDocumentType クラス
- ExtractorDocumentTypeCapabilities クラス
- ExtractorFieldCapability クラス
- ExtractorNativeActivity クラス
- ExtractorResult クラス
- ICapabilitiesProvider インターフェイス
- IExtractorActivity インターフェイス
- ExtractorPayload クラス
- DocumentActionPriority 列挙型
- DocumentActionData クラス
- DocumentActionStatus 列挙型
- DocumentActionType 列挙型
- DocumentClassificationActionData クラス
- DocumentValidationActionData クラス
- UserData クラス
- Document クラス
- DocumentSplittingResult クラス
- DomExtensions クラス
- Page クラス
- PageSection クラス
- Polygon クラス
- PolygonConverter クラス
- Metadata クラス
- WordGroup クラス
- Word クラス
- ProcessingSource 列挙型
- ResultsTableCell クラス
- ResultsTableValue クラス
- ResultsTableColumnInfo クラス
- ResultsTable クラス
- Rotation 列挙型
- SectionType 列挙型
- WordGroupType 列挙型
- IDocumentTextProjection インターフェイス
- ClassificationResult クラス
- ExtractionResult クラス
- ResultsDocument クラス
- ResultsDocumentBounds クラス
- ResultsDataPoint クラス
- ResultsValue クラス
- ResultsContentReference クラス
- ResultsValueTokens クラス
- ResultsDerivedField クラス
- ResultsDataSource 列挙型
- ResultConstants クラス
- SimpleFieldValue クラス
- TableFieldValue クラス
- DocumentGroup クラス
- DocumentTaxonomy クラス
- DocumentType クラス
- Field クラス
- FieldType 列挙型
- LanguageInfo クラス
- MetadataEntry クラス
- TextType 列挙型
- TypeField クラス
- ITrackingActivity インターフェイス
- ITrainableActivity インターフェイス
- ITrainableClassifierActivity インターフェイス
- ITrainableExtractorActivity インターフェイス
- TrainableClassifierAsyncCodeActivity クラス
- TrainableClassifierCodeActivity クラス
- TrainableClassifierNativeActivity クラス
- TrainableExtractorAsyncCodeActivity クラス
- TrainableExtractorCodeActivity クラス
- TrainableExtractorNativeActivity クラス
- Document Understanding Digitizer
- Document Understanding ML
- Document Understanding OCR ローカル サーバー
- Document Understanding
- IntelligentOCR
- リリース ノート
- IntelligentOCR アクティビティ パッケージについて
- プロジェクトの対応 OS
- 認証を構成する
- タクソノミーを読み込み
- ドキュメントをデジタル化
- ドキュメント分類スコープ
- キーワード ベースの分類器
- Document Understanding プロジェクト分類器
- インテリジェント キーワード分類器
- ドキュメント分類アクションを作成
- ドキュメント分類アクション完了まで待機し再開
- 分類器トレーニング スコープ
- キーワード ベースの分類器トレーナー
- インテリジェント キーワード分類器トレーナー
- データ抽出スコープ
- Document Understanding プロジェクト抽出器
- 正規表現ベースの抽出器
- フォーム抽出器
- インテリジェント フォーム抽出器
- 検証ステーションを提示
- ドキュメント検証アクションを作成
- ドキュメント検証アクション完了まで待機し再開
- 抽出器トレーニング スコープ
- 抽出結果をエクスポート
- ML サービス
- OCR
- OCR Contracts
- リリース ノート
- OCR コントラクトについて
- プロジェクトの対応 OS
- IOCRActivity インターフェイス
- OCRAsyncCodeActivity クラス
- OCRCodeActivity クラス
- OCRNativeActivity クラス
- Character クラス
- OCRResult クラス
- Word クラス
- FontStyles 列挙型
- OCRRotation 列挙型
- OCRCapabilities クラス
- OCRScrapeBase クラス
- OCRScrapeFactory クラス
- ScrapeControlBase クラス
- ScrapeEngineUsages 列挙型
- ScrapeEngineBase
- ScrapeEngineFactory クラス
- ScrapeEngineProvider クラス
- OmniPage
- PDF
- [リストから削除済] ABBYY
- [リストから削除済] ABBYY Embedded
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。
新しいコンテンツの翻訳は、およそ 1 ~ 2 週間で公開されます。
Document Understanding アクティビティ
最終更新日時 2024年12月5日
ドキュメントをデジタル化
UiPath.IntelligentOCR.Activities.Digitization.DigitizeDocument
ドキュメントをデジタル化し、Document Object Model (DOM) とテキストを取得して、対応する変数型に格納します。
注: アクティビティの本体にドラッグして OCR エンジンをこのアクティビティに割り当てる必要があります。選択した OCR エンジンは、受け取ったドキュメントで OCR 処理が必要な場合にのみ使用されます。利用可能な OCR エンジンを確認するには、「OCR エンジン」をご覧ください。選択された OCR エンジンの入力および出力パラメーターは、[ドキュメントをデジタル化] アクティビティによって自動的に設定されます。
プロパティ パネル
共通
- 表示名 - アクティビティの表示名です。
入力
- PDF に OCR を適用 - PDF ドキュメントに OCR プロセスを適用するかどうかを指定します。[はい] に設定すると、ドキュメントのすべての PDF ページに OCR が適用されます。[いいえ]にすると、デジタル入力されたテキストのみが抽出されます。既定値は [Auto] で、入力ドキュメントに応じてドキュメントに OCR アルゴリズムを適用する必要があるかどうかを判断します。
- 並列度 - 並列で分析するページ数を指定します (該当する場合)。
-1
値は「マシン上のコア数 - 1」を使用します。つまり、アクティビティはコア数 - 1 の値と同じ数のページを並列処理しようとします。正の値を指定すると、その特定の数の論理プロセッサが使用されます。既定では、このプロパティは-1
に設定されます。このプロパティには、LogicalProcessorCount - 1
より小さい任意の値を設定できます。 - チェックボックスを検出 - ドキュメントのデジタル化中に、利用可能なチェックボックスをドキュメントから検出します。既定値は [True] です。
- ドキュメント パス - デジタル化するドキュメントのファイル パスです。このフィールドは、文字列と
String
型変数のみをサポートします。注:- 十分なデータを含むドキュメントの分類に失敗した場合は、[ドキュメントをデジタル化] アクティビティの [PDF に OCR を適用] プロパティを [はい] に設定してください。
- PDF ファイルからのテキスト抽出機能がアップグレードされました。これにより抽出プロセスが最適化され、ネイティブ テキストとスキャンされたテキストの両方が同時に取得されます。OCR は、PDF ファイル内の認識された画像にのみ適用されます。この改良は、[PDF に OCR を適用] オプションが [自動] に設定されている場合にのみ利用可能です。
注: このプロパティ フィールドでサポートされているファイルは、.png
、.jpe
、.jpg
、.jpeg
、.tiff
、.tif
、.pdf
、です。
その他
- プライベート - オンにした場合、変数および引数の値が Verbose レベルでログに出力されなくなります。
出力
- ドキュメントオブジェクトモデル -
Document
変数に格納されている、ファイルのドキュメント オブジェクト モデル (DOM)。このフィールドではDocument
変数のみサポートされています。 - ドキュメント テキスト - 指定したドキュメントから取得したテキストです。この変数は後ほど [検証ステーションを提示] アクティビティで使用されます。このフィールドは
String
変数のみをサポートします。注: UiPath.IntelligentOCR.Activities パッケージ v6.3.0-preview より、[ドキュメントをデジタル化] アクティビティには、事前に選択された既定の OCR エンジンである UiPath® Document OCR エンジンが付属します。
出力変数は両方とも、依存関係にあるためペアになっており、ドキュメント処理フレームワーク全体 (分類、データ抽出、人間による検証など) を通してドキュメント処理でさらに使用できます。
UiPath.IntelligentOCR.Activities パッケージが v5.1.0 に更新されている場合、[OCR を強制適用] パラメーターは [PDF に OCR を適用] に置き換えられています。古いパラメーターと新しいパラメーターとの対応は次のとおりです。
- [OCR を強制適用] = [True] は [PDF に OCR を適用] = [はい] に置き換えられます。
- [OCR を強制適用] = [False] は [PDF に OCR を適用] = [自動] に置き換えられます。
- [OCR を強制適用] = [空] は [PDF に OCR を適用] = [自動] に置き換えられます。
- [OCR を強制適用] = ユーザー定義変数は [PDF に OCR を適用] = [自動] に置き換えられます。
注: [ドキュメントをデジタル化] アクティビティは PDF ファイルからテキストを抽出し、複雑なドキュメントの場合は前処理と後処理のアルゴリズムを適用します。このアクティビティは、他の Document Understanding アクティビティと併用できます。
ドキュメント オブジェクト モデルは、独自のオブジェクトでキャプチャされます。詳細については、「Document クラス」をご覧ください。
ヒント: ドキュメントを正常にデジタル化および処理するには、次のアドバイスを考慮に入れてください。
- 画像を正常にデジタル化/処理するには、幅と高さを それぞれ 50 から 10000 ピクセルにする必要があります。この範囲を下回る、または上回る画像は、例外メッセージが表示されて却下されます。上述の寸法で検証された、合計サイズが 14 MP を超える画像は、縦横比 (幅または高さの比率) を維持しながら 14 MP に縮小されます。
- 傾斜角度を +/- 20 度に保つことで最適な結果が得られます。
[ドキュメントをデジタル化] アクティビティの使い方を、複数のアクティビティを組み込んだサンプルで確認するには、「ドキュメントのデジタル化の手動検証」をご覧ください。