Document Understanding - 基本機能

document-understanding

latest

false

Document Understanding ガイド

重要 :

このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

基本機能

Document Understanding でドキュメント処理を自動化するために必要な 4 つの基本機能、すなわちデジタル化、分類、抽出、検証です。

ドキュメント処理を自動化するには、基本的機能として、デジタル化、分類、抽出、検証の 4 つが必要です。

図 1.基本機能

デジタル化

デジタル化は、物理的なドキュメントを機械判読可能なテキストに変換し、デジタルで処理できるようにします。光学式文字認識 (OCR) はデジタル化の重要な部分です。デジタル化プロセスはより複雑で、OCR を含むさまざまな手順が関わります。

たとえば、PDF ドキュメントを扱う場合、デジタル化アルゴリズムにより、スキャンされた PDF とネイティブ PDF、またはスキャンされた画像とネイティブテキストを含むハイブリッド PDF を区別できます。ほとんどのテキストはネイティブ PDF ドキュメントから直接抽出できますが、場合によっては、OCR を使用していくつかのロゴを読み取る必要があります。デジタル化プロセスはこうした状況をすべて扱うことができるため、テキスト検出の精度を最大限に高めると同時に、処理を迅速かつ効率的に実行できます。

プロジェクトで使用する OCR は、[プロジェクト設定] から変更できます。詳しくは、「プロジェクト設定を構成する」をご覧ください。利用可能な OCR エンジンとサポートされている言語は、ユーザーガイドの「サポートされている言語」セクションで確認できます。

サポートされているファイル、画像サイズの制限、およびその他の仕様について詳しくは、「既知の制限事項」をご覧ください。

分類と分割

注:

利用可能な機能は、使用するクラウドプラットフォームによって異なります。詳しくは、「デプロイの種類を選択する」をご覧ください。

ほとんどのユースケースでは、さまざまな処理方法を適用できるように、ドキュメントを論理的なカテゴリに分類する必要があります。ドキュメントの分類プロセスには、次の 2 つのタスクが含まれます。

分割
分類

問題の複雑さに応じて、ドキュメントの分割、分類、またはその両方が必要になる場合があります。

注:

ドキュメントの分割は、IntelligentOCR とともに使用する場合にのみ使用できます。

分割の目的は、ドキュメントの連続ページをスキャンし、それらを論理サブドキュメントに分割することです。ドキュメント分割アルゴリズムは、ドキュメントの種類に依存させないことができます。つまり、請求書、契約書、申請書のいずれであっても、任意のドキュメントを分割できます。

図 2. ドキュメント分割

分類の目的は、ドキュメントをスキャンし、それが属するドキュメントの種類を決定することです。ドキュメントの種類が異なれば、必要な処理手法も異なるため、ドキュメントの種類を把握することは重要です。たとえば、請求書は請求書抽出モデルで処理する必要があります。関連するすべてのフィールドを確実に抽出するためです。

図 3. ドキュメント分類器

抽出

データ抽出は、ドキュメントから関連情報のみを選択して取得するプロセスです。文字列操作を使用して長いドキュメントから特定のデータを抽出するのはなかなか大変です。Document Understanding^TM には異なるドキュメントの種類と形式に対してさまざまな抽出方法が用意されています。たとえば、請求書からベンダー名、請求先名、期限日、合計のフィールドだけを抽出したいとします。

図 4. データ抽出

検証

分類と抽出では、ソフトウェアロボットは、特定のタスクが適切に実行されたという確実性のレベルを測定する「信頼度」という概念を使用します。タスクは、ドキュメントの種類の認識、フィールドの識別、またはその中のデータの読み取りのいずれかです。このような場合、Document Understanding フレームワークを使用すると、人間のユーザーがロボットの出力のレビューと検証に関与できます。最適なシナリオでは、人間の入力を使用して、機械学習を通じてロボットの精度をトレーニングします。

デジタル化
分類と分割
抽出
検証

このページは役に立ちましたか?

前へドキュメントの種類

次へ重要な概念

デジタル化​

分類と分割​

抽出​

検証​

このページは役に立ちましたか?

デジタル化

分類と分割

抽出

検証