Document Understanding

はじめに

UiPath の Document Understanding フレームワークを使用することで、オープンで拡張可能かつ幅広い用途で使える環境において、あらゆる受信ファイルの処理 (ファイルのデジタル化から抽出データの検証まで) を、円滑に行うことができます。

Document Understanding は、様々なドキュメントの種類から情報を抽出するために、異なるアプローチを組み合わることができるよう設計されています。さまざまなドキュメントからデータを抽出する単一のワークフローを作成することで、データ抽出プロセスをできるだけシンプルにします。

Document Understanding フレームワークを使用する前に、以下の Document Understanding フレームワークコンポーネントを理解しておくことをお勧めします。

What documents need to be processed and what data is required from them? Used to define the document types and the pieces of information targeted for data extraction (fields) for each document type, and formalizes this information into a dedicated Taxonomy structure. This metadata information is managed through the .
ファイルのコンテンツを取得受け取るドキュメントのテキストコンテンツと構造を取得し、ファイルを機械判読可能なコンテンツに変換して、下流でさらに処理できるようにするために使用します。
ファイル内のドキュメントの種類を特定 デジタル化されたファイルに含まれるドキュメントの種類を自動的に特定するために使用します。
予想した分類が正しいか確認 (人間によるレビューおよび修正)自動分類およびドキュメント分割の結果の人間による検証および修正をサポートするために使用します。
人間のレビュー結果のロボットへのフィードバック人間が検証した情報を分類器に返し、それを使用して今後の予測を改善するために使用します。
ドキュメント内のデータの識別特定の入力ドキュメントおよび分類ページ範囲内で、識別されたドキュメントの種類で必要とされる情報をキャプチャするために使用します。
抽出された情報が正しいか確認 (人間によるレビューおよび修正) 自動的に抽出されたデータ結果の、人間による検証および修正をサポートするために使用します。
人間のレビュー結果のロボットへのフィードバック人間が検証した抽出データを抽出器に返し、それを使用して抽出予測を改善するために使用します。
検証済みデータをエクスポートして消費するために使用します。
使用状況の測定と請求ロジック: 利用可能な各サービスのページあたりの消費単位の説明に使用します。

以下の図は、Document Understanding フレームワークのコンポーネント間の関連を示しています。

Document Understanding フレームワークは、UiPath.IntelligentOCR.Activities パッケージに含まれています。UiPath.IntelligentOCR.Activities パッケージをインストールすると、UiPath Studio の最上部のリボンに [タクソノミーマネージャー] ウィザードが表示されます。このパッケージには、Document Understanding フレームワークの主要なアクティビティがすべて含まれています。

Document Understanding フレームワークの一部であるスコープアクティビティ ([ドキュメント分類スコープ]、[データ抽出スコープ]、[分類器トレーニングスコープ]、[抽出器トレーニングスコープ]) を使用することで、ユースケースに合わせてドキュメントの分類とデータ抽出のアルゴリズムを使用し、これらのアルゴリズムをトレーニングできます。

Document Understanding フレームワークは、すぐに使える分類器や抽出器だけでなく、カスタム作成された分類器や抽出器でも使用できます。UiPath.DocumentProcessing.Contracts パッケージの抽象クラスを使用して作成でき、「分類」系または「データ抽出」系のアクティビティとして実装できます。UiPath.OCR.Contracts パッケージの抽象クラスを使用して、カスタム作成の OCR エンジンを作成することもできます。