Document Understanding
最新
バナーの背景画像
モダン エクスペリエンスの Document Understanding ユーザー ガイド
最終更新日 2024年5月16日

基本機能

ドキュメント処理を自動化するには、基本的機能として、デジタル化、分類と分割、抽出、検証の 4 つが必要です。

図 1. 基本機能 docs image

デジタル化

デジタル化は、物理的なドキュメントを機械判読可能なテキストに変換し、デジタルで処理できるようにします。光学式文字認識 (OCR) はデジタル化の重要な部分です。デジタル化プロセスはより複雑で、OCR を含むさまざまな手順が関わります。

たとえば、PDF ドキュメントを扱う場合、デジタル化アルゴリズムにより、スキャンされた PDF とネイティブ PDF、またはスキャンされた画像とネイティブ テキストを含むハイブリッド PDF を区別できます。ほとんどのテキストはネイティブ PDF ドキュメントから直接抽出できますが、場合によっては、OCR を使用していくつかのロゴを読み取る必要があります。デジタル化プロセスはこうした状況をすべて扱うことができるため、テキスト検出の精度を最大限に高めると同時に、処理を迅速かつ効率的に実行できます。

分類

In most use cases, documents need to be sorted into logical categories so different processing methods can be applied to them.

分類の目的は、ドキュメントをスキャンし、それが属するドキュメントの種類を決定することです。ドキュメントの種類が異なれば、必要な処理手法も異なるため、ドキュメントの種類を把握することは重要です。たとえば、請求書は請求書抽出モデルで処理する必要があります。関連するすべてのフィールドを確実に抽出するためです。

Figure 2. Document classifier docs image

抽出

データ抽出は、ドキュメントから関連情報のみを選択して取得するプロセスです。文字列操作を使用して長いドキュメントから特定のデータを抽出するのはなかなか大変です。Document UnderstandingTM には異なるドキュメントの種類と形式に対してさまざまな抽出方法が用意されています。たとえば、請求書からベンダー名、請求先名、期限日、合計のフィールドだけを抽出したいとします。

Figure 3. Data extraction docs image

検証

分類と抽出では、ソフトウェア ロボットは、特定のタスクが適切に実行されたという確実性のレベルを測定する「信頼度」という概念を使用します。タスクは、ドキュメントの種類の認識、フィールドの識別、またはその中のデータの読み取りのいずれかです。このような場合、Document Understanding フレームワークを使用すると、人間のユーザーがロボットの出力のレビューと検証に関与できます。最適なシナリオでは、人間の入力を使用して、機械学習を通じてロボットの精度をトレーニングします。

  • デジタル化
  • 分類
  • 抽出
  • 検証

Was this page helpful?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
UiPath ロゴ (白)
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.