document-understanding
latest
false
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。
UiPath logo, featuring letters U and I in white
Document Understanding モダン プロジェクト ユーザー ガイド
Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
Last updated 2024年11月14日

基本機能

ドキュメント処理を自動化するには、基本的機能として、デジタル化、分類、抽出、検証の 4 つが必要です。

図 1. 基本機能

デジタル化

デジタル化は、物理的なドキュメントを機械判読可能なテキストに変換し、デジタルで処理できるようにします。光学式文字認識 (OCR) はデジタル化の重要な部分です。デジタル化プロセスはより複雑で、OCR を含むさまざまな手順が関わります。

たとえば、PDF ドキュメントを扱う場合、デジタル化アルゴリズムにより、スキャンされた PDF とネイティブ PDF、またはスキャンされた画像とネイティブ テキストを含むハイブリッド PDF を区別できます。ほとんどのテキストはネイティブ PDF ドキュメントから直接抽出できますが、場合によっては、OCR を使用していくつかのロゴを読み取る必要があります。デジタル化プロセスはこうした状況をすべて扱うことができるため、テキスト検出の精度を最大限に高めると同時に、処理を迅速かつ効率的に実行できます。

分類と分割

ほとんどのユース ケースでは、さまざまな処理方法を適用できるように、ドキュメントを論理的なカテゴリに分類する必要があります。ドキュメントの分類プロセスには、次の 2 つのタスクが含まれます。
  • 分割
  • 分類
問題の複雑さに応じて、ドキュメントの分割、分類、またはその両方が必要になる場合があります。
注: ドキュメントの分割は、IntelligentOCR とともに使用する場合にのみ使用できます。

分割の目的は、ドキュメントの連続ページをスキャンし、それらを論理サブドキュメントに分割することです。ドキュメント分割アルゴリズムは、ドキュメントの種類に依存させないことができます。つまり、請求書、契約書、申請書のいずれであっても、任意のドキュメントを分割できます。

図 2. ドキュメント分割 docs image

分類の目的は、ドキュメントをスキャンし、それが属するドキュメントの種類を決定することです。ドキュメントの種類が異なれば、必要な処理手法も異なるため、ドキュメントの種類を把握することは重要です。たとえば、請求書は請求書抽出モデルで処理する必要があります。関連するすべてのフィールドを確実に抽出するためです。

図 3. ドキュメント分類器 docs image

抽出

データ抽出は、ドキュメントから関連情報のみを選択して取得するプロセスです。文字列操作を使用して長いドキュメントから特定のデータを抽出するのはなかなか大変です。Document UnderstandingTM には異なるドキュメントの種類と形式に対してさまざまな抽出方法が用意されています。たとえば、請求書からベンダー名、請求先名、期限日、合計のフィールドだけを抽出したいとします。

図 4. データ抽出

検証

分類と抽出では、ソフトウェア ロボットは、特定のタスクが適切に実行されたという確実性のレベルを測定する「信頼度」という概念を使用します。タスクは、ドキュメントの種類の認識、フィールドの識別、またはその中のデータの読み取りのいずれかです。このような場合、Document Understanding フレームワークを使用すると、人間のユーザーがロボットの出力のレビューと検証に関与できます。最適なシナリオでは、人間の入力を使用して、機械学習を通じてロボットの精度をトレーニングします。

  • デジタル化
  • 分類と分割
  • 抽出
  • 検証

このページは役に立ちましたか?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
Uipath Logo White
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.