- 基本情報
- フレームワーク コンポーネント
- デジタル化の概要
- OCR エンジン
- デジタル化関連のアクティビティ
- AI Center での Document Understanding
- パイプライン
- ML パッケージ
- データ マネージャー (Data Manager)
- OCR サービス
- ライセンス
- 参照
デジタル化の概要
デジタル化とは、特定の受信ファイルから機械判読可能なテキストを取得して、ロボットがその内容を理解し、操作できるようにするプロセスです。これは、Document Understanding フレームワークで処理する必要のあるファイルに適用される最初の手順です。
デジタル化の手順には、2 つの出力があります。
- 処理されたファイルからのテキスト。String 型変数に格納されます。
- そのファイルのドキュメント オブジェクト モデル - 名前、コンテンツの種類、テキスト長、ページ数などの基本情報および、ページの回転、検出された言語、コンテンツ、およびファイルで識別されたすべての単語の座標などの詳細情報を含む JSON オブジェクト。
ドキュメント処理フレームワークでは、[ドキュメントをデジタル化] アクティビティを使用してデジタル化を実行します。
関連はありますが、デジタル化手順は OCR ではありません。
多くの場合、処理対象のファイルはネイティブ PDF ファイル (スキャンされていない) であり、OCR を適用しなくてもロボットがプログラムを使用して読み取ることができます。
[ドキュメントをデジタル化] アクティビティでは、設定の一部として OCR エンジンを選択する必要があるため、必要に応じて使用することはできますが、OCR が実行されるのは以下に対してのみです。
-
画像ファイル
- サポートされている画像形式は .png、.gif、.jpe、.jpg、.jpeg、.tiff、.tif、.bmp
- 複数ページの TIFF ファイルの場合、OCR が各ページに適用される
-
次のような PDF ページ
- 機械判読可能な内容が公開されていない
- ページのかなりの領域を占める画像を含む
[ドキュメントをデジタル化] アクティビティが ForceApplyOCR フラグを True にして設定されている場合も、常に OCR が適用されます。このオプションは通常、かなりの割合のファイルにネイティブ コンテンツが含まれているが、ネイティブに読み取られるコンテンツがそれらのファイルでユーザーに表示される内容と一致していないユース ケースに推奨されます。
各ユース ケースには独自の特徴があるため、使用可能なすべての OCR エンジンをさまざまな設定でテストして、プロジェクトに最適なエンジンを決定することを強くお勧めします。また、ユース ケースごとに最適な設定を特定するために、プロファイル、拡大縮小、言語などの OCR エンジンの引数 (エンジンによって異なる可能性があります) に特別な注意を払うことも推奨されます。