Document Understanding アクティビティ

最終更新日時 2024年12月5日

IntelligentOCR アクティビティパッケージについて

UiPath.IntelligentOCR.Activities には、完全でオープンかつ拡張可能なアプローチを使用したドキュメント処理フローを実現するためのインフラストラクチャが含まれています。

削除されたバージョンを置き換える

次の表に、削除されたパッケージバージョンと、代わりに使用する推奨バージョンを示します。

表 1. 削除されたバージョンと推奨される置き換えバージョン
	推奨バージョン
4.3.0-preview\| 4.4.0-preview	4.5.2
2.1.0\| 2.2.0 \| 2.3.0	4.0.1
1.4.0 \| 1.5.0 \| 1.6.0\| 1.6.1 \| 2.0.0 \| 2.0.1	2.0.2
1.2.0 \| 1.2.1 \| 1.3.0	1.3.2

重要

v6.19.0 のリリースより、プロジェクトに UiPath.IntelligentOCR.Activities パッケージをインストールすると UiPath.DocumentUnderstanding.ML.Activities パッケージも自動的にインストールされるため、個別にインストールする必要はありません。
v2023.4.4 以前の UiPath® Studio を使用している場合は、Windows .NET 6.0 Desktop Runtime の最新バージョンをインストールしてください。

対応しているバージョン

UiPath.IntelligentOCR.Activities を更新するには、UiPath.UIAutomation.Activities パッケージと UiPath.OCR.Activities パッケージ (プロジェクトに含まれている場合) の更新も必要です。

UiPath.IntelligentOCR.Activities と UiPath.DocumentUnderstanding.Activities を同じプロジェクト内で一緒に使用することはできません。UiPath.IntelligentOCR.Activities パッケージを Windows (またはレガシ) ワークフローに使用してください。また、クロスプラットフォームのワークフローには UiPath.DocumentUnderstanding.Activities パッケージを使用する必要があります。

サポートされる形式

IntelligentOCR アクティビティパッケージでサポートされているファイルの種類は、.png, .gif, .jpe, .jpg, .jpeg, .tiff, .tif, .bmp および .pdf です。

C# のプロジェクト言語のサポート

バージョン 4.10.0 から、このアクティビティパッケージが C# プロジェクトで使用できるように検証が行われます。

機能

このセクションでは、Intelligent.OCR パッケージの複数の機能について説明します。

ドキュメントのデジタル化

[ドキュメントをデジタル化] アクティビティを使用して実現できます。必要な場合のみ、選択した OCR エンジンを使用して、PDF や画像からテキストを取得します。

ドキュメントを 1 つずつ処理しながら、デジタル化プロセスが実行されます。非デジタル (スキャンされた)ドキュメントの特異な点は、選択した OCR エンジンを適用する必要があることです。このステップの出力は、ドキュメントオブジェクトモデルとすべてのドキュメントテキストを含む String 型変数であり、次のステップに渡されます。

ドキュメントの分類

[ドキュメント分類スコープ] アクティビティを使用して実現できます。これにより、分類アルゴリズムを使用して、ファイルがどの種類のドキュメントであるかを識別できます。

デジタル化後、ドキュメントは分類されます。同じプロジェクトで複数の種類のドキュメントを使用している場合、データを適切に抽出するには、使用しているドキュメントの種類を知る必要があります。重要なことは、同じスコープで複数の分類器を使用でき、分類器を設定し、後でフレームワークでそれらをトレーニングできることです。分類結果は、適切な抽出方法を適用するのに役立ちます。

利用可能な分類器は以下のとおりです。

[キーワードベースの分類器] アクティビティはタイトル付きドキュメントの分類をターゲットにする、最初のこのような分類器です。
[インテリジェントキーワード分類器] アクティビティは、複数のドキュメントの種類を含むファイルを分類できるだけでなく「分割」することもできます。
The Machine Learning Classifier activity can classify your files using a powerful ML Model, that you can train according to your needs.
[生成 AI 分類器] アクティビティでは、生成 AI モデルを使用してドキュメントを分類できます。

自動分類の検証

[分類ステーションを提示] の Attended アクティビティを使用して実現できます。このアクティビティは、自動分類の出力を検証および修正するための、ドキュメント処理固有のユーザーインターフェイスを表示します。

特にファイル分割に関係するユースケースでは、データ抽出のダウンストリーム処理が適切に機能することを保証するために、人間の分類検証ステップを使用することを強くお勧めします。

Attended アクティビティの代わりに、人間とロボットのコラボレーションを最適に実現するように設計された長期実行のワークフローを使用することもできます。[ドキュメント分類アクションを作成] および [ドキュメント分類アクション完了まで待機し再開] アクティビティは、このシナリオを可能にします。

分類器のトレーニング

[分類器トレーニングスコープ] アクティビティを使用して実現できます。これにより、学習能力を持つ分類アルゴリズムのフィードバックループを閉じることができます。このスコープアクティビティ内に分類器トレーナーをドラッグアンドドロップします。さらに、分類ステーションまたは検証ステーションで人間が検証した情報が分類器のパフォーマンス向上に使用されていることを、分類器トレーナーが [分類器を設定] ウィザードを使用して確認できるようにします。

分類は、使用される分類器と同程度に効率的です。ドキュメントが適切に分類されなかった場合は、そのドキュメントがアクティブな分類器にとって不明であったことを意味します。このフレームワークは、ドキュメントクラスの認識を向上させるために、分類器をトレーニングする機会を提供します。

利用可能な分類器トレーナーは以下のとおりです。

[キーワードベースの分類器トレーナー] は、[キーワードベースの分類器] とペアとなるトレーナーアクティビティです。
[インテリジェントキーワード分類器トレーナー] は、[インテリジェントキーワード分類器] のためのフィードバックループを可能にします。
[マシンラーニング分類器トレーナー] は、[マシンラーニング分類器] と組み合わせて使用するトレーナーアクティビティです。

ドキュメントからのデータ抽出

[データ抽出スコープ] アクティビティを使用して実現できます。これにより、任意のデータ抽出アルゴリズムを使用して、分類されたドキュメントのさまざまなフィールドを識別できます。

抽出とは、特定のドキュメントの種類から関心のあるデータだけを取得することです。たとえば、5 ページのドキュメントから特定のデータを抽出することは、文字列操作で行う場合は非常に面倒です。このフレームワークでは、同じデータ抽出スコープで、さまざまなドキュメント構造に対してさまざまな抽出器を使用できます。抽出結果は、さらに検証するために渡されます。

利用可能な抽出器は以下のとおりです。

正規表現ベースの抽出器は、特定のフィールドに最適な候補を識別するために、正規表現による一致を適用する基本的なデータ抽出器です。
フォーム抽出器は、事前定義されたテンプレートを使用して、構造化された固定フォームのドキュメントの処理を可能にします。
マシンラーニング抽出器は、AI とマシンラーニングのパワーを活用して、UiPath® の公開データ抽出サービスの 1 つを使用するか、AI Center で構築およびホストできるトレーニング済みのマシンラーニングのカスタムモデルを呼び出すことにより、構造化または半構造化されたドキュメントの情報を識別します。このアクティビティは UiPath.DocumentUnderstanding.ML.Activities パッケージの一部です。
生成 AI 抽出器を使用すると、生成 AI モデルを使用してドキュメントを抽出できます。このアクティビティは UiPath.DocumentUnderstanding.ML.Activities パッケージの一部です。

自動データ抽出結果の検証

[検証ステーションを提示] の Attended アクティビティを使用して実現できます。このアクティビティは、データを検証および修正するための、ドキュメント処理固有のユーザーインターフェイスを表示します。

抽出されたデータは、検証ステーションを介して人間のユーザーが検証できます。ベストプラクティスは、実装する特定のユースケースに応じたルールを使用して、人間による検証ステップを追加するかどうかの決定に基づいてロジックを構築することです。その後、検証結果をエクスポートして、以降のオートメーションアクティビティで使用できます。
また、[ドキュメント検証アクションを作成] および [ドキュメント検証アクション完了まで待機し再開] アクティビティを使用して、長期実行のワークフローを通じて人間による検証を有効化し、人間とロボットのコラボレーションを最適化することもできます。

抽出器のトレーニング

[抽出器トレーニングスコープ] アクティビティを使用して実現できます。これにより、学習能力を持つデータ抽出アルゴリズムのフィードバックループを閉じることができます。このスコープアクティビティ内に抽出器トレーナーをドラッグアンドドロップします。さらに、検証ステーションで人間が検証した情報が抽出器のパフォーマンス向上に使用されていることを、抽出器トレーナーが [抽出器を設定] ウィザードを使用して確認できるようにします。

抽出は、使用される抽出器と同程度に効率的です。フィールド値が適切に抽出されなかった場合は、それらのフィールド値がアクティブな抽出器にとって不明であったことを意味します。このフレームワークは、フィールド値の認識を向上させるために、抽出器をトレーニングする機会を提供します。

マシンラーニング抽出器トレーナーは、AI Center でホストされているマシンラーニングモデルの再トレーニングに必要なデータを収集することにより、ML ベースのデータ抽出のフィードバックループを閉じます。このアクティビティはマシンラーニング抽出器のコンパニオンであり、UiPath.DocumentUnderstanding.ML.Activities パッケージの一部です。

抽出した情報のエクスポート

[抽出結果をエクスポート] アクティビティを使用して実現できます。これにより、抽出されたデータの複雑な構造を単純な DataSet (データテーブルのコレクション) にエクスポートできます。

検証済みの情報を取得したら、それをそのまま使用することも、Excel ファイルに非常に簡単に変換できるデータテーブル形式で保存することもできます。

UiPath.IntelligentOCR.Activities パッケージは、パブリックの UiPath.DocumentProcessing.Contracts パッケージに基づいて構築されている任意のカスタム分類やデータ抽出アクティビティとともに利用できます。ユースケースに固有の独自のアルゴリズムを構築するための完全な柔軟性を提供し、ドキュメント分類およびデータ抽出のためのサードパーティソリューションと連携します。

以下のバージョンのパッケージが公式フィードから削除されました。問題が発生した場合は、サポートチームにお問い合わせください。