document-understanding
latest
false
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。 新しいコンテンツの翻訳は、およそ 1 ~ 2 週間で公開されます。
UiPath logo, featuring letters U and I in white

Document Understanding ガイド

最終更新日時 2025年9月15日

基本機能

ドキュメント処理を自動化するには、基本的機能として、デジタル化、分類、抽出、検証の 4 つが必要です。

図 1. 基本機能

デジタル化

デジタル化は、物理的なドキュメントを機械判読可能なテキストに変換し、デジタルで処理できるようにします。光学式文字認識 (OCR) はデジタル化の重要な部分です。デジタル化プロセスはより複雑で、OCR を含むさまざまな手順が関わります。

たとえば、PDF ドキュメントを扱う場合、デジタル化アルゴリズムにより、スキャンされた PDF とネイティブ PDF、またはスキャンされた画像とネイティブ テキストを含むハイブリッド PDF を区別できます。ほとんどのテキストはネイティブ PDF ドキュメントから直接抽出できますが、場合によっては、OCR を使用していくつかのロゴを読み取る必要があります。デジタル化プロセスはこうした状況をすべて扱うことができるため、テキスト検出の精度を最大限に高めると同時に、処理を迅速かつ効率的に実行できます。

You can change the OCR used in your project from Project settings. For more information, check the Configure project settings page. You can check the available OCR engines and the supported languages from the Supported languages section of the user guide.

You can check the Known limitations page for more information on the supported files, image size limits, and more specifications.

分類

ほとんどのユース ケースでは、さまざまな処理方法を適用できるように、ドキュメントを論理的なカテゴリに分類する必要があります。

分類の目的は、ドキュメントをスキャンし、それが属するドキュメントの種類を決定することです。ドキュメントの種類が異なれば、必要な処理手法も異なるため、ドキュメントの種類を把握することは重要です。たとえば、請求書は請求書抽出モデルで処理する必要があります。関連するすべてのフィールドを確実に抽出するためです。

図 2. ドキュメント分類器 ドキュメントの種類が不明なドキュメントがドキュメント分類器で処理される様子を説明する画像です。その後、このドキュメントは請求書として分類されます。

抽出

データ抽出は、ドキュメントから関連情報のみを選択して取得するプロセスです。文字列操作を使用して長いドキュメントから特定のデータを抽出するのはなかなか大変です。Document UnderstandingTM には異なるドキュメントの種類と形式に対してさまざまな抽出方法が用意されています。たとえば、請求書からベンダー名、請求先名、期限日、合計のフィールドだけを抽出したいとします。

図 3. データ抽出

検証

分類と抽出では、ソフトウェア ロボットは、特定のタスクが適切に実行されたという確実性のレベルを測定する「信頼度」という概念を使用します。タスクは、ドキュメントの種類の認識、フィールドの識別、またはその中のデータの読み取りのいずれかです。このような場合、Document Understanding フレームワークを使用すると、人間のユーザーがロボットの出力のレビューと検証に関与できます。最適なシナリオでは、人間の入力を使用して、機械学習を通じてロボットの精度をトレーニングします。

  • デジタル化
  • 分類
  • 抽出
  • 検証

このページは役に立ちましたか?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
Uipath Logo
信頼とセキュリティ
© 2005-2025 UiPath. All rights reserved.