Document Understanding - デジタル化の概要

document-understanding

2023.10

false

Document Understanding ガイド

重要 :

このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

デジタル化の概要

Document Understanding のデジタル化における重要な概念です。ドキュメント処理フレームワークの最初のステップとして、受信ファイルから機械判読可能テキストを抽出する方法について説明します。

デジタル化とは

デジタル化とは、特定の受信ファイルから機械判読可能テキストを取得して、ロボットがそのコンテンツを理解し、操作できるようにするプロセスです。これは、Document Understanding^TM フレームワークで処理する必要のあるファイルに適用される最初の手順です。

デジタル化の手順には、2 つの出力があります。

処理されたファイルからのテキスト。String 型変数に格納されます。
そのファイルのドキュメントオブジェクトモデル - 名前、コンテンツの種類、テキスト長、ページ数などの基本情報および、ページの回転、検出された言語、コンテンツ、およびファイルで識別されたすべての単語の座標などの詳細情報を含む JSON オブジェクト。

ドキュメント処理フレームワークでは、[ ドキュメントをデジタル化 ] アクティビティを使用してデジタル化を実行します。

デジタル化は OCR ではない

関連はありますが、デジタル化手順は OCR ではありません。

多くの場合、処理する必要のあるファイルはネイティブ PDF ファイル (スキャンされていない) であり、OCR を適用しなくてもロボットでプログラムを使用して読み取ることができます。

デジタル化で OCR が使用される場合

[ドキュメントをデジタル化] アクティビティでは、設定の一部として OCR エンジンを選択する必要があるため、必要に応じて使用することはできますが、OCR が実行されるのは以下に対してのみです。

画像ファイル
- サポートされている画像形式は .png、.jpe、.jpg、.jpeg、.tiff、.tif、.bmp
- 複数ページの TIFF ファイルの場合、OCR が各ページに適用される
次のような PDF ページ
- 機械判読可能コンテンツを公開しない
- ページのかなりの領域を占める画像を含む

注:

デジタル化で適用される制限は以下のとおりです。

ファイルサイズの制限は 160 MB です。
ドキュメントあたりのページ数の制限は 500 ページです。

[ ドキュメントをデジタル化 ] アクティビティで [ OCR を強制適用 ] フラグが True に設定されている場合は、常に OCR も適用されます。このオプションは通常、かなりの割合のファイルにネイティブコンテンツが含まれているように見えるが、ネイティブに読み取られたコンテンツがユーザーがそれらのファイルで確認できるものに対応していないユースケースに推奨されます。

OCR エンジンの選択方法

ユースケースごとに特殊性があるため、利用可能なすべての OCR エンジンを異なる設定でテストし、プロジェクトに最適な OCR エンジンを決定することを強くお勧めします。もう 1 つとして、 OCR エンジンの引数 (プロファイル、 スケール、言語など) に特に注意を払い (エンジンによって異なる場合があります)、各ユースケースに最適な設定を特定することをお勧めします。

デジタル化とは
デジタル化は OCR ではない
デジタル化で OCR が使用される場合
OCR エンジンの選択方法

このページは役に立ちましたか?

前へデジタル化

次へデジタル化関連のアクティビティ

デジタル化とは​

デジタル化は OCR ではない​

デジタル化で OCR が使用される場合​

OCR エンジンの選択方法​

このページは役に立ちましたか?

デジタル化とは

デジタル化は OCR ではない

デジタル化で OCR が使用される場合

OCR エンジンの選択方法