Document Understanding モダンプロジェクトユーザーガイド

基本機能

ドキュメント処理を自動化するには、基本的機能として、デジタル化、分類、抽出、検証の 4 つが必要です。

図 1.基本機能

デジタル化

デジタル化は、物理的なドキュメントを機械判読可能なテキストに変換し、デジタルで処理できるようにします。光学式文字認識 (OCR) はデジタル化の重要な部分です。デジタル化プロセスはより複雑で、OCR を含むさまざまな手順が関わります。

たとえば、PDF ドキュメントを扱う場合、デジタル化アルゴリズムにより、スキャンされた PDF とネイティブ PDF、またはスキャンされた画像とネイティブテキストを含むハイブリッド PDF を区別できます。ほとんどのテキストはネイティブ PDF ドキュメントから直接抽出できますが、場合によっては、OCR を使用していくつかのロゴを読み取る必要があります。デジタル化プロセスはこうした状況をすべて扱うことができるため、テキスト検出の精度を最大限に高めると同時に、処理を迅速かつ効率的に実行できます。

プロジェクトで使用する OCR は、[プロジェクト設定] から変更できます。詳しくは、「プロジェクト設定を構成する」をご覧ください。利用可能な OCR エンジンとサポートされている言語は、ユーザーガイドの「サポートされている言語」セクションで確認できます。

サポートされているファイル、画像サイズの制限、およびその他の仕様について詳しくは、「既知の制限事項」をご覧ください。

分類

分類の目的は、ドキュメントをスキャンし、それが属するドキュメントの種類を決定することです。ドキュメントの種類が異なれば、必要な処理手法も異なるため、ドキュメントの種類を把握することは重要です。たとえば、請求書は請求書抽出モデルで処理する必要があります。関連するすべてのフィールドを確実に抽出するためです。

図 2. ドキュメント分類器

抽出

データ抽出は、ドキュメントから関連情報のみを選択して取得するプロセスです。文字列操作を使用して長いドキュメントから特定のデータを抽出するのはなかなか大変です。Document Understanding^TM には異なるドキュメントの種類と形式に対してさまざまな抽出方法が用意されています。たとえば、請求書からベンダー名、請求先名、期限日、合計のフィールドだけを抽出したいとします。

図 3. データ抽出

検証

分類と抽出では、ソフトウェアロボットは、特定のタスクが適切に実行されたという確実性のレベルを測定する「信頼度」という概念を使用します。タスクは、ドキュメントの種類の認識、フィールドの識別、またはその中のデータの読み取りのいずれかです。このような場合、Document Understanding フレームワークを使用すると、人間のユーザーがロボットの出力のレビューと検証に関与できます。最適なシナリオでは、人間の入力を使用して、機械学習を通じてロボットの精度をトレーニングします。

デジタル化
分類
抽出
検証

このページは役に立ちましたか?

前へドキュメントの種類

次へ重要な概念

Document Understanding モダン プロジェクト ユーザー ガイド

デジタル化​

分類​

抽出​

検証​

このページは役に立ちましたか?

Document Understanding モダンプロジェクトユーザーガイド

デジタル化

分類

抽出

検証