Document Understanding
2022.10
バナーの背景画像
Document Understanding ガイド
最終更新日 2024年4月19日

デジタル化

このセクションには、デジタル化コンポーネントに関する一般的および技術的な情報が含まれています。

デジタル化とは

デジタル化とは、特定の受信ファイルから機械判読可能テキストを取得して、ロボットがそのコンテンツを理解し、操作できるようにするプロセスです。これは、Document Understanding フレームワークを通じて処理する必要のあるファイルに適用される最初の手順です。

デジタル化の手順には、2 つの出力があります。

  • 処理されたファイルからのテキストString 型変数に格納されます
  • そのファイルのドキュメント オブジェクト モデル - 名前、コンテンツの種類、テキスト長、ページ数などの基本情報および、ページの回転、検出された言語、コンテンツ、およびファイルで識別されたすべての単語の座標などの詳細情報を含む JSON オブジェクト。

ドキュメント処理フレームワークでは、[ドキュメントをデジタル化] アクティビティを使用してデジタル化を実行します。

デジタル化で OCR が使用される場合

[ドキュメントをデジタル化] アクティビティでは、設定の一部として OCR エンジンを選択する必要があるため、必要に応じて使用することはできますが、OCR が実行されるのは以下に対してのみです。

  • 画像ファイル

    • サポートされている画像形式は .png、.gif、.jpe、.jpg、.jpeg、.tiff、.tif、.bmp
    • 複数ページの TIFF ファイルの場合、OCR が各ページに適用される
  • 次のような PDF ページ

    • 機械判読可能コンテンツを公開しない
    • ページのかなりの領域を占める画像を含む

[ドキュメントをデジタル化] アクティビティが ForceApplyOCR フラグを True にして設定されている場合も、常に OCR が適用されます。このオプションは通常、かなりの割合のファイルにネイティブ コンテンツが含まれているが、ネイティブに読み取られるコンテンツがそれらのファイルでユーザーに表示される内容と一致していないユース ケースに推奨されます。

OCR エンジンの選択方法

ユース ケースにはそれぞれ独自の特徴があるため、使用可能なすべての OCR エンジンをさまざまな設定でテストして、プロジェクトに最適なエンジンを決定することを強くお勧めします。また、各ユース ケースに最適な設定を特定するために、プロファイル拡大縮小言語など (エンジンによって異なる可能性があります)、OCR エンジンの引数に特別な注意を払うことも推奨されます。

デジタル化は OCR ではない

関連はありますが、デジタル化手順は OCR ではありません

多くの場合、処理する必要のあるファイルはネイティブ PDF ファイル (スキャンされていない) であり、OCR を適用しなくてもロボットでプログラムを使用して読み取ることができます。

Was this page helpful?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
UiPath ロゴ (白)
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.