Document Understanding - デジタル化の概要

document-understanding

2022.4

true

Document Understanding ガイド

重要 :

このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

デジタル化の概要

デジタル化とは

デジタル化とは、特定の受信ファイルから機械判読可能なテキストを取得して、ロボットがその内容を理解し、操作できるようにするプロセスです。これは、Document Understanding フレームワークで処理する必要のあるファイルに適用される最初の手順です。

デジタル化の手順には、2 つの出力があります。

処理されたファイルからのテキスト。String 型変数に格納されます。
そのファイルのドキュメントオブジェクトモデル - 名前、コンテンツの種類、テキスト長、ページ数などの基本情報および、ページの回転、検出された言語、コンテンツ、およびファイルで識別されたすべての単語の座標などの詳細情報を含む JSON オブジェクト。

ドキュメント処理フレームワークでは、[ドキュメントをデジタル化] アクティビティを使用してデジタル化を実行します。

デジタル化は OCR ではない

関連はありますが、デジタル化手順は OCR ではありません。

多くの場合、処理対象のファイルはネイティブ PDF ファイル (スキャンされていない) であり、OCR を適用しなくてもロボットがプログラムを使用して読み取ることができます。

デジタル化で OCR が使用される場合

[ドキュメントをデジタル化] アクティビティでは、設定の一部として OCR エンジンを選択する必要があります。必要に応じて OCR を使用できるようにするための設定ですが、OCR が実行されるのは以下に対してのみです。

画像ファイル
- サポートされている画像形式は .png、.gif、.jpe、.jpg、.jpeg、.tiff、.tif、.bmp
- 複数ページの TIFF ファイルの場合、OCR が各ページに適用される
次のような PDF ページ
- 機械判読可能な内容が公開されていない
- ページのかなりの領域を占める画像を含む

[ドキュメントをデジタル化] アクティビティが ForceApplyOCR フラグを True にして設定されている場合も、常に OCR が適用されます。このオプションは通常、かなりの割合のファイルにネイティブコンテンツが含まれているが、ネイティブに読み取られるコンテンツがそれらのファイルでユーザーに表示される内容と一致していないユースケースに推奨されます。

OCR エンジンの選択方法

ユースケースにはそれぞれ独自の特徴があるため、使用可能なすべての OCR エンジンをさまざまな設定でテストして、プロジェクトに最適なエンジンを決定することを強くお勧めします。また、ユースケースごとに最適な設定を特定するために、プロファイル、拡大縮小、言語などの OCR エンジンの引数 (エンジンによって異なる可能性があります) に特別な注意を払うことも推奨されます。

デジタル化とは
デジタル化は OCR ではない
デジタル化で OCR が使用される場合
OCR エンジンの選択方法

このページは役に立ちましたか?

前へデジタル化

次へOCR エンジン