UiPath Documentation
document-understanding
2024.10
false
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。 新しいコンテンツの翻訳は、およそ 1 ~ 2 週間で公開されます。
UiPath logo, featuring letters U and I in white

Document Understanding ガイド

最終更新日時 2026年4月6日

デジタル化の概要

デジタル化とは

Digitization is the process of obtaining machine readable text from a given incoming file, so that a robot can then understand its contents and act upon them. It is the first step applied on files that need to be processed through the Document UnderstandingTM framework.

デジタル化の手順には、2 つの出力があります。

  • 処理されたファイルからのテキストString 型変数に格納されます
  • そのファイルのドキュメント オブジェクト モデル - 名前、コンテンツの種類、テキスト長、ページ数などの基本情報および、ページの回転、検出された言語、コンテンツ、およびファイルで識別されたすべての単語の座標などの詳細情報を含む JSON オブジェクト。

In the Document Processing Framework, digitization is performed using the Digitize Document activity.

デジタル化は OCR ではない

関連はありますが、デジタル化手順は OCR ではありません

多くの場合、処理する必要のあるファイルはネイティブ PDF ファイル (スキャンされていない) であり、OCR を適用しなくてもロボットでプログラムを使用して読み取ることができます。

デジタル化で OCR が使用される場合

The Digitize Document activity requires, as part of its configuration, the selection of an OCR engine - so that, at need, it can be used, but only executes OCR on:

  • 画像ファイル
    • サポートされている画像形式は .png、.jpe、.jpg、.jpeg、.tiff、.tif、.bmp
    • 複数ページの TIFF ファイルの場合、OCR が各ページに適用される
  • 次のような PDF ページ
    • 機械判読可能コンテンツを公開しない
    • ページのかなりの領域を占める画像を含む
注:

The following digitization limitations apply:

  • ファイル サイズの制限は 160 MB です。
  • ドキュメントあたりのページ数の制限は 500 ページです。

OCR is also applied, always, if the Digitize Document activity is configured with the ForceApplyOCR flag set to True. This option is usually recommended for use cases in which a significant percentage of files seem to contain native content, but the natively read content does not correspond to what a user can observe in those files.

OCR エンジンの選択方法

As each use case has its own particularities, it is strongly recommended to test all available OCR Engines with different settings, in order to determine which one works best for your project. Another recommendation is to pay particular attention to the OCR engine arguments, such as Profile, Scale, Language etc. (may vary from one engine to another), so that you identify the best settings for each use case.

  • デジタル化とは
  • デジタル化は OCR ではない
  • デジタル化で OCR が使用される場合
  • OCR エンジンの選択方法

このページは役に立ちましたか?

接続

ヘルプ リソース サポート

学習する UiPath アカデミー

質問する UiPath フォーラム

最新情報を取得