- 概要
- Document Processing Contracts
- Document Processing Contracts について
- Box クラス
- IPersistedActivity インターフェイス
- PrettyBoxConverter クラス
- IClassifierActivity インターフェイス
- IClassifierCapabilitiesProvider インターフェイス
- ClassifierDocumentType クラス
- ClassifierResult クラス
- ClassifierCodeActivity クラス
- ClassifierNativeActivity クラス
- ClassifierAsyncCodeActivity クラス
- ClassifierDocumentTypeCapability クラス
- ExtractorAsyncCodeActivity クラス
- ExtractorCodeActivity クラス
- ExtractorDocumentType クラス
- ExtractorDocumentTypeCapabilities クラス
- ExtractorFieldCapability クラス
- ExtractorNativeActivity クラス
- ExtractorResult クラス
- ICapabilitiesProvider インターフェイス
- IExtractorActivity インターフェイス
- ExtractorPayload クラス
- DocumentActionPriority 列挙型
- DocumentActionData クラス
- DocumentActionStatus 列挙型
- DocumentActionType 列挙型
- DocumentClassificationActionData クラス
- DocumentValidationActionData クラス
- UserData クラス
- Document クラス
- DocumentSplittingResult クラス
- DomExtensions クラス
- Page クラス
- PageSection クラス
- Polygon クラス
- PolygonConverter クラス
- Metadata クラス
- WordGroup クラス
- Word クラス
- ProcessingSource 列挙型
- ResultsTableCell クラス
- ResultsTableValue クラス
- ResultsTableColumnInfo クラス
- ResultsTable クラス
- Rotation 列挙型
- SectionType 列挙型
- WordGroupType 列挙型
- IDocumentTextProjection インターフェイス
- ClassificationResult クラス
- ExtractionResult クラス
- ResultsDocument クラス
- ResultsDocumentBounds クラス
- ResultsDataPoint クラス
- ResultsValue クラス
- ResultsContentReference クラス
- ResultsValueTokens クラス
- ResultsDerivedField クラス
- ResultsDataSource 列挙型
- ResultConstants クラス
- SimpleFieldValue クラス
- TableFieldValue クラス
- DocumentGroup クラス
- DocumentTaxonomy クラス
- DocumentType クラス
- Field クラス
- FieldType 列挙型
- LanguageInfo クラス
- MetadataEntry クラス
- TextType 列挙型
- TypeField クラス
- ITrackingActivity インターフェイス
- ITrainableActivity インターフェイス
- ITrainableClassifierActivity インターフェイス
- ITrainableExtractorActivity インターフェイス
- TrainableClassifierAsyncCodeActivity クラス
- TrainableClassifierCodeActivity クラス
- TrainableClassifierNativeActivity クラス
- TrainableExtractorAsyncCodeActivity クラス
- TrainableExtractorCodeActivity クラス
- TrainableExtractorNativeActivity クラス
- Document Understanding Digitizer
- Document Understanding ML
- Document Understanding OCR ローカル サーバー
- Document Understanding Process - Studio のテンプレート
- Document Understanding アクティビティ
- IntelligentOCR
- Intelligent OCR アクティビティ パッケージについて
- プロジェクトの対応 OS
- ML サービス
- OCR
- OCR Contracts
- リリース ノート
- OCR コントラクトについて
- プロジェクトの対応 OS
- IOCRActivity インターフェイス
- OCRAsyncCodeActivity クラス
- OCRCodeActivity クラス
- OCRNativeActivity クラス
- Character クラス
- OCRResult クラス
- Word クラス
- FontStyles 列挙型
- OCRRotation 列挙型
- OCRCapabilities クラス
- OCRScrapeBase クラス
- OCRScrapeFactory クラス
- ScrapeControlBase クラス
- ScrapeEngineUsages 列挙型
- ScrapeEngineBase
- ScrapeEngineFactory クラス
- ScrapeEngineProvider クラス
- OmniPage
- PDF
- [リストから削除済] ABBYY
- [リストから削除済] ABBYY Embedded
Intelligent OCR アクティビティ パッケージについて
このパッケージには、完全、オープンで拡張可能なアプローチを使用してドキュメント処理フローを有効化するためのインフラストラクチャが含まれています。
重要
UiPath.IntelligentOCR.Activities と UiPath.DocumentUnderstanding.ML.Activities の相互運用性
v6.18.0-preview のリリースより、プロジェクトに UiPath.IntelligentOCR.Activities パッケージをインストールすると UiPath.DocumentUnderstanding.ML.Activities パッケージも自動的にインストールされるようになり、個別にインストールする必要がなくなりました。
UiPath Studio v2023.4.4 の相互運用性
v2023.4.4 以前の UiPath Studio を使用している場合は、Windows .NET 6.0 Desktop Runtime の最新バージョンをインストールしてください。
対応しているバージョン
UiPath.IntelligentOCR.Activities を更新するには、UiPath.UIAutomation.Activities パッケージと UiPath.OCR.Activities パッケージの更新も必要です (プロジェクトに含まれている場合)。
UiPath.IntelligentOCR.Activities と UiPath.DocumentUnderstanding.Activities を同じプロジェクト内で一緒に使用することはできません。UiPath.IntelligentOCR.Activities パッケージを Windows (またはレガシ) ワークフローに使用してください。また、クロスプラットフォームのワークフローには UiPath.DocumentUnderstanding.Activities パッケージを使用する必要があります。
サポートされる形式
- Intelligent OCR アクティビティ パッケージでサポートされているファイルの種類: .png、.gif、.jpe、.jpg、.jpeg、.tiff、.tif、.bmp、および .pdf
C# プロジェクト フレーバーのサポート
- バージョン 4.10.0 から、このアクティビティ パッケージが C# プロジェクトで使用できるように検証が行われます。
Docotic.Pdf ライブラリ
- Docotic.Pdf ライブラリに言及するエラーが実行時に検出された場合は、UiPath.IntelligentOCR.Activities パッケージをバージョン 3.1.0 以降にアップグレードする必要があります。
- UiPath.IntelligentOCR.Activities バージョン 3.0 以降は UiPath.PDF.Activities バージョン 3.0 未満に対応せず、UiPath.PDF.Activities バージョン 3.0 以降は UiPath.IntelligentOCR.Activities バージョン 3.0 未満に対応しません。両方のパッケージが同じプロジェクトで使用されている場合は、対応可能なバージョンを使用してください。
- プロジェクトで、UiPath.DocumentUnderstanding.ML.Activities バージョン 1.7.0、UiPath.IntelligentOCR.Activities バージョン 4.13.0、または UiPath.PDF.Activities バージョン 3.4.0 のいずれかを使用する場合、残りのパッケージを前述のバージョンに更新する必要があります。
CefSharp の依存関係
- UiPath.IntelligentOCR.Activities バージョン 4.10.2 は、UiPath.Form.Activities バージョン 1.1.8 ~ 1.1.10 にのみ対応します (同じワークフローで使用する場合)。
- UiPath.IntelligentOCR.Activities バージョン 4.13.0 は、UiPath.Form.Activities バージョン 1.1.11 以降にのみ対応します (同じワークフローで使用する場合)。
- UiPath.IntelligentOCR.Activities を 4.10.2 よりも前のバージョンから 4.10.2 以降のバージョンに更新すると、例外がスローされる場合があります。これは、修正予定の既知の問題であり、無視して構いません。
Abbyy アクティビティ
- UiPath.IntelligentOCR.Activities バージョン 4.0.0 以降、Abbyy 関連のアクティビティは、すべて別のパッケージに移されました。OCR、Cloud OCR、分類、データ抽出に Abbyy 関連のアクティビティを使用する場合は、UiPath.Abbyy.Activities パッケージをインストールしてください。
その他の注記
- Studio v20.10 では、一時的に検証ステーションと分類ステーションがサポートされていません。他のバージョンの Studio を使用して、検証ステーション ウィザードおよび分類ステーション ウィザードを実行してください。
機能
UiPath.IntelligentOCR.Activities パッケージでは、以下を実行できます。
ドキュメントのデジタル化
[ドキュメントをデジタル化] アクティビティを使用して実現できます。必要な場合のみ、選択した OCR エンジンを使用して、PDF や画像からテキストを取得します。
- ドキュメントを 1 つずつ処理しながら、デジタル化プロセスが実行されます。非デジタル (スキャンされた)ドキュメントの特異な点は、選択した OCR エンジンを適用する必要があることです。このステップの出力は、ドキュメント オブジェクト モデルとすべてのドキュメント テキストを含む String 型変数であり、次のステップに渡されます。
ドキュメントの分類
[ドキュメント分類スコープ] アクティビティを使用して実現できます。これにより、分類アルゴリズムを使用して、ファイルがどの種類のドキュメントであるかを識別できます。
- デジタル化後、ドキュメントは分類されます。同じプロジェクトで複数の種類のドキュメントを使用している場合、データを適切に抽出するには、使用しているドキュメントの種類を知る必要があります。重要なことは、同じスコープで複数の分類器を使用でき、分類器を設定し、後でフレームワークでそれらをトレーニングできることです。分類結果は、適切な抽出方法を適用するのに役立ちます。
- [キーワード ベースの分類器] アクティビティはタイトル付きドキュメントの分類をターゲットにする、最初のこのような分類器です。
- [インテリジェント キーワード分類器] アクティビティは、複数のドキュメントの種類を含むファイルを分類できるだけでなく「分割」することもできます。
- ABBYY FlexiCapture テクノロジを埋め込む [FlexiCapture 分類器] も、製品に組み込まれています。このアクティビティは UiPath.Abbyy.Activities パッケージの一部です。
自動分類の検証
[分類ステーションを提示] の Attended アクティビティを使用して実現できます。このアクティビティは、自動分類の出力を検証および修正するための、ドキュメント処理固有のユーザー インターフェイスを表示します。
- 特にファイル分割に関係するユースケースでは、データ抽出のダウンストリーム処理が適切に機能することを保証するために、人間の分類検証ステップを使用することを強くお勧めします。
- Attended アクティビティの代わりに、人間とロボットのコラボレーションを最適に実現するように設計された長期実行のワークフローを使用することもできます。[ドキュメント分類アクションを作成] および [ドキュメント分類アクション完了まで待機し再開] アクティビティは、このシナリオを可能にします。
分類器のトレーニング
[分類器トレーニング スコープ] アクティビティを使用して実現できます。これにより、学習能力を持つ分類アルゴリズムのフィードバック ループを閉じることができます。このスコープ アクティビティ内に分類器トレーナーをドラッグ アンド ドロップします。さらに、分類ステーションまたは検証ステーションで人間が検証した情報が分類器のパフォーマンス向上に使用されていることを、分類器トレーナーが [分類器を設定] ウィザードを使用して確認できるようにします。
- 分類は、使用される分類器と同程度に効率的です。ドキュメントが適切に分類されなかった場合は、そのドキュメントがアクティブな分類器にとって不明であったことを意味します。このフレームワークは、ドキュメント クラスの認識を向上させるために、分類器をトレーニングする機会を提供します。
- [キーワード ベースの分類器トレーナー] は、[キーワード ベースの分類器] とペアとなるトレーナー アクティビティです。
- [インテリジェント キーワード分類器トレーナー] は、[インテリジェント キーワード分類器] のためのフィードバック ループを可能にします。
ドキュメントからのデータ抽出
[データ抽出スコープ] アクティビティを使用して実現できます。これにより、任意のデータ抽出アルゴリズムを使用して、分類されたドキュメントのさまざまなフィールドを識別できます。
- 抽出とは、特定のドキュメントの種類から関心のあるデータだけを取得することです。たとえば、5 ページのドキュメントから特定のデータを抽出することは、文字列操作で行う場合は非常に面倒です。このフレームワークでは、同じデータ抽出スコープで、さまざまなドキュメント構造に対してさまざまな抽出器を使用できます。抽出結果は、さらに検証するために渡されます。
- 正規表現ベースの抽出器は、特定のフィールドに最適な候補を識別するために、正規表現による一致を適用する基本的なデータ抽出器です。
- フォーム抽出器は、事前定義されたテンプレートを使用して、構造化された固定フォームのドキュメントの処理を可能にします。
- インテリジェント フォーム抽出器は、ドキュメントに対する手書きのフォームおよび署名の処理に関連する拡張機能を備えたフォーム抽出器の拡張です。
- マシン ラーニング抽出器は、AI とマシン ラーニングのパワーを活用して、UiPath の公開データ抽出サービスの 1 つを使用するか、または AI Center で構築およびホストできるトレーニング済みのマシン ラーニングのカスタム モデルを呼び出すことにより、構造化または半構造化されたドキュメントの情報を識別します。このアクティビティは UiPath.DocumentUnderstanding.ML.Activities パッケージの一部です。
- FlexiCapture 抽出器は、Abbyy FlexiCapture テクノロジを製品に組み込んでおり、UiPath.Abbyy.Activities パッケージの一部です。
自動データ抽出結果の検証
[検証ステーションを提示] の Attended アクティビティを使用して実現できます。このアクティビティは、データを検証および修正するための、ドキュメント処理固有のユーザー インターフェイスを表示します。
- 抽出されたデータは、検証ステーションを介して人間のユーザーが検証できます。ベスト プラクティスは、実装する特定のユース ケースに応じたルールを使用して、人間による検証ステップを追加するかどうかの決定に基づいてロジックを構築することです。その後、検証結果をエクスポートして、以降のオートメーション アクティビティで使用できます。
- また、長期実行のワークフローを通じて人間による検証を有効化し、人間とロボットのコラボレーションを最適化することもできます。ドキュメント検証アクションを作成およびドキュメント検証アクション完了まで待機し再開
.
抽出器のトレーニング
[抽出器トレーニング スコープ] アクティビティを使用して実現できます。これにより、学習能力を持つデータ抽出アルゴリズムのフィードバック ループを閉じることができます。このスコープ アクティビティ内に抽出器トレーナーをドラッグ アンド ドロップします。さらに、検証ステーションで人間が検証した情報が抽出器のパフォーマンス向上に使用されていることを、抽出器トレーナーが [抽出器を設定] ウィザードを使用して確認できるようにします。
- 抽出は、使用される抽出器と同程度に効率的です。フィールド値が適切に抽出されなかった場合は、それらのフィールド値がアクティブな抽出器にとって不明であったことを意味します。このフレームワークは、フィールド値の認識を向上させるために、抽出器をトレーニングする機会を提供します。
- マシン ラーニング抽出器トレーナーは、AI Center でホストされているマシン ラーニング モデルの再トレーニングに必要なデータを収集することにより、ML ベースのデータ抽出のフィードバック ループを閉じます。このアクティビティはマシン ラーニング抽出器のコンパニオンであり、UiPath.DocumentUnderstanding.ML.Activities パッケージの一部です。
抽出した情報のエクスポート
[抽出結果をエクスポート] アクティビティを使用して実現できます。これにより、抽出されたデータの複雑な構造を単純な DataSet (データテーブルのコレクション) にエクスポートできます。
- 検証済みの情報を取得したら、それをそのまま使用することも、Excel ファイルに非常に簡単に変換できるデータテーブル形式で保存することもできます。
UiPath.IntelligentOCR.Activities パッケージは、パブリックの UiPath.DocumentProcessing.Contracts パッケージに基づいて構築されている任意のカスタム分類やデータ抽出アクティビティとともに利用できます。ユースケースに固有の独自のアルゴリズムを構築するための完全な柔軟性を提供し、ドキュメント分類およびデータ抽出のためのサードパーティ ソリューションと連携します。
以下のバージョンのパッケージが公式フィードから削除されました。問題が発生した場合は、サポート チームにお問い合わせください。
削除されたバージョン |
推奨バージョン |
---|---|
4.3.0-preview| 4.4.0-preview |
4.5.2 |
2.1.0| 2.2.0 | 2.3.0 |
4.0.1 |
1.4.0 | 1.5.0 | 1.6.0| 1.6.1 | 2.0.0 | 2.0.1 |
2.0.2 |
1.2.0 | 1.2.1 | 1.3.0 |
1.3.2 |