document-understanding
2024.10
true
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。
UiPath logo, featuring letters U and I in white
Document Understanding ガイド
Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
Last updated 2024年11月11日

デジタル化の概要

デジタル化とは

Digitization is the process of obtaining machine readable text from a given incoming file, so that a robot can then understand its contents and act upon them. It is the first step applied on files that need to be processed through the Document UnderstandingTM framework.

デジタル化の手順には、2 つの出力があります。

  • 処理されたファイルからのテキストString 型変数に格納されます
  • そのファイルのドキュメント オブジェクト モデル - 名前、コンテンツの種類、テキスト長、ページ数などの基本情報および、ページの回転、検出された言語、コンテンツ、およびファイルで識別されたすべての単語の座標などの詳細情報を含む JSON オブジェクト。

ドキュメント処理フレームワークでは、[ドキュメントをデジタル化] アクティビティを使用してデジタル化を実行します。

デジタル化は OCR ではない

関連はありますが、デジタル化手順は OCR ではありません

多くの場合、処理する必要のあるファイルはネイティブ PDF ファイル (スキャンされていない) であり、OCR を適用しなくてもロボットでプログラムを使用して読み取ることができます。

デジタル化で OCR が使用される場合

[ドキュメントをデジタル化] アクティビティでは、設定の一部として OCR エンジンを選択する必要があるため、必要に応じて使用することはできますが、OCR が実行されるのは以下に対してのみです。

  • 画像ファイル
    • サポートされている画像形式は .png、.jpe、.jpg、.jpeg、.tiff、.tif、.bmp
    • 複数ページの TIFF ファイルの場合、OCR が各ページに適用される
  • 次のような PDF ページ
    • 機械判読可能コンテンツを公開しない
    • ページのかなりの領域を占める画像を含む
注: デジタル化で適用される制限は以下のとおりです。
  • ファイル サイズの制限は 160 MB です。
  • ドキュメントあたりのページ数の制限は 500 ページです。

[ドキュメントをデジタル化] アクティビティが ForceApplyOCR フラグを True にして設定されている場合も、常に OCR が適用されます。このオプションは通常、かなりの割合のファイルにネイティブ コンテンツが含まれているが、ネイティブに読み取られるコンテンツがそれらのファイルでユーザーに表示される内容と一致していないユース ケースに推奨されます。

OCR エンジンの選択方法

各ユース ケースには独自の特徴があるため、使用可能なすべての OCR エンジンをさまざまな設定でテストして、プロジェクトに最適なエンジンを決定することを強くお勧めします。また、各ユース ケースに最適な設定を特定するために、プロファイル拡大縮小言語など (エンジンによって異なる可能性があります)、OCR エンジンの引数に特別な注意を払うことも推奨されます。

  • デジタル化とは
  • デジタル化は OCR ではない
  • デジタル化で OCR が使用される場合
  • OCR エンジンの選択方法

このページは役に立ちましたか?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
Uipath Logo White
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.