- 概要
- Document Processing Contracts
- リリース ノート
- Document Processing Contracts について
- Box クラス
- IPersistedActivity インターフェイス
- PrettyBoxConverter クラス
- IClassifierActivity インターフェイス
- IClassifierCapabilitiesProvider インターフェイス
- ClassifierDocumentType クラス
- ClassifierResult クラス
- ClassifierCodeActivity クラス
- ClassifierNativeActivity クラス
- ClassifierAsyncCodeActivity クラス
- ClassifierDocumentTypeCapability クラス
- ExtractorAsyncCodeActivity クラス
- ExtractorCodeActivity クラス
- ExtractorDocumentType クラス
- ExtractorDocumentTypeCapabilities クラス
- ExtractorFieldCapability クラス
- ExtractorNativeActivity クラス
- ExtractorResult クラス
- ICapabilitiesProvider インターフェイス
- IExtractorActivity インターフェイス
- ExtractorPayload クラス
- DocumentActionPriority 列挙型
- DocumentActionData クラス
- DocumentActionStatus 列挙型
- DocumentActionType 列挙型
- DocumentClassificationActionData クラス
- DocumentValidationActionData クラス
- UserData クラス
- Document クラス
- DocumentSplittingResult クラス
- DomExtensions クラス
- Page クラス
- PageSection クラス
- Polygon クラス
- PolygonConverter クラス
- Metadata クラス
- WordGroup クラス
- Word クラス
- ProcessingSource 列挙型
- ResultsTableCell クラス
- ResultsTableValue クラス
- ResultsTableColumnInfo クラス
- ResultsTable クラス
- Rotation 列挙型
- SectionType 列挙型
- WordGroupType 列挙型
- IDocumentTextProjection インターフェイス
- ClassificationResult クラス
- ExtractionResult クラス
- ResultsDocument クラス
- ResultsDocumentBounds クラス
- ResultsDataPoint クラス
- ResultsValue クラス
- ResultsContentReference クラス
- ResultsValueTokens クラス
- ResultsDerivedField クラス
- ResultsDataSource 列挙型
- ResultConstants クラス
- SimpleFieldValue クラス
- TableFieldValue クラス
- DocumentGroup クラス
- DocumentTaxonomy クラス
- DocumentType クラス
- Field クラス
- FieldType 列挙型
- LanguageInfo クラス
- MetadataEntry クラス
- TextType 列挙型
- TypeField クラス
- ITrackingActivity インターフェイス
- ITrainableActivity インターフェイス
- ITrainableClassifierActivity インターフェイス
- ITrainableExtractorActivity インターフェイス
- TrainableClassifierAsyncCodeActivity クラス
- TrainableClassifierCodeActivity クラス
- TrainableClassifierNativeActivity クラス
- TrainableExtractorAsyncCodeActivity クラス
- TrainableExtractorCodeActivity クラス
- TrainableExtractorNativeActivity クラス
- Document Understanding Digitizer
- Document Understanding ML
- Document Understanding OCR ローカル サーバー
- Document Understanding
- IntelligentOCR
- リリース ノート
- IntelligentOCR アクティビティ パッケージについて
- プロジェクトの対応 OS
- 認証を構成する
- タクソノミーを読み込み
- ドキュメントをデジタル化
- ドキュメント分類スコープ
- キーワード ベースの分類器
- Document Understanding プロジェクト分類器
- インテリジェント キーワード分類器
- ドキュメント分類アクションを作成
- ドキュメント分類アクション完了まで待機し再開
- 分類器トレーニング スコープ
- キーワード ベースの分類器トレーナー
- インテリジェント キーワード分類器トレーナー
- データ抽出スコープ
- Document Understanding プロジェクト抽出器
- 正規表現ベースの抽出器
- フォーム抽出器
- インテリジェント フォーム抽出器
- 検証ステーションを提示
- ドキュメント検証アクションを作成
- ドキュメント検証アクション完了まで待機し再開
- 抽出器トレーニング スコープ
- 抽出結果をエクスポート
- ML サービス
- OCR
- OCR Contracts
- リリース ノート
- OCR コントラクトについて
- プロジェクトの対応 OS
- IOCRActivity インターフェイス
- OCRAsyncCodeActivity クラス
- OCRCodeActivity クラス
- OCRNativeActivity クラス
- Character クラス
- OCRResult クラス
- Word クラス
- FontStyles 列挙型
- OCRRotation 列挙型
- OCRCapabilities クラス
- OCRScrapeBase クラス
- OCRScrapeFactory クラス
- ScrapeControlBase クラス
- ScrapeEngineUsages 列挙型
- ScrapeEngineBase
- ScrapeEngineFactory クラス
- ScrapeEngineProvider クラス
- OmniPage
- PDF
- [リストから削除済] ABBYY
- [リストから削除済] ABBYY Embedded
Document Understanding アクティビティ
IntelligentOCR アクティビティ パッケージについて
UiPath.IntelligentOCR.Activities には、完全でオープンかつ拡張可能なアプローチを使用したドキュメント処理フローを実現するためのインフラストラクチャが含まれています。
次の表に、削除されたパッケージ バージョンと、代わりに使用する推奨バージョンを示します。
推奨バージョン | |
---|---|
4.3.0-preview| 4.4.0-preview |
4.5.2 |
2.1.0| 2.2.0 | 2.3.0 |
4.0.1 |
1.4.0 | 1.5.0 | 1.6.0| 1.6.1 | 2.0.0 | 2.0.1 |
2.0.2 |
1.2.0 | 1.2.1 | 1.3.0 |
1.3.2 |
- v6.19.0 のリリースより、プロジェクトに UiPath.IntelligentOCR.Activities パッケージをインストールすると UiPath.DocumentUnderstanding.ML.Activities パッケージも自動的にインストールされるため、個別にインストールする必要はありません。
- v2023.4.4 以前の UiPath® Studio を使用している場合は、Windows .NET 6.0 Desktop Runtime の最新バージョンをインストールしてください。
UiPath.IntelligentOCR.Activities を更新するには、UiPath.UIAutomation.Activities パッケージと UiPath.OCR.Activities パッケージ (プロジェクトに含まれている場合) の更新も必要です。
UiPath.IntelligentOCR.Activities と UiPath.DocumentUnderstanding.Activities を同じプロジェクト内で一緒に使用することはできません。UiPath.IntelligentOCR.Activities パッケージを Windows (またはレガシ) ワークフローに使用してください。また、クロスプラットフォームのワークフローには UiPath.DocumentUnderstanding.Activities パッケージを使用する必要があります。
.png, .gif, .jpe, .jpg, .jpeg, .tiff, .tif, .bmp
および .pdf
です。
このセクションでは、Intelligent.OCR パッケージの複数の機能について説明します。
[ドキュメントをデジタル化] アクティビティを使用して実現できます。必要な場合のみ、選択した OCR エンジンを使用して、PDF や画像からテキストを取得します。
ドキュメントを 1 つずつ処理しながら、デジタル化プロセスが実行されます。非デジタル (スキャンされた)ドキュメントの特異な点は、選択した OCR エンジンを適用する必要があることです。このステップの出力は、ドキュメント オブジェクト モデルとすべてのドキュメント テキストを含む String 型変数であり、次のステップに渡されます。
[ドキュメント分類スコープ] アクティビティを使用して実現できます。これにより、分類アルゴリズムを使用して、ファイルがどの種類のドキュメントであるかを識別できます。
デジタル化後、ドキュメントは分類されます。同じプロジェクトで複数の種類のドキュメントを使用している場合、データを適切に抽出するには、使用しているドキュメントの種類を知る必要があります。重要なことは、同じスコープで複数の分類器を使用でき、分類器を設定し、後でフレームワークでそれらをトレーニングできることです。分類結果は、適切な抽出方法を適用するのに役立ちます。
利用可能な分類器は以下のとおりです。
- [キーワード ベースの分類器] アクティビティはタイトル付きドキュメントの分類をターゲットにする、最初のこのような分類器です。
- [インテリジェント キーワード分類器] アクティビティは、複数のドキュメントの種類を含むファイルを分類できるだけでなく「分割」することもできます。
- The Machine Learning Classifier activity can classify your files using a powerful ML Model, that you can train according to your needs.
- [生成 AI 分類器] アクティビティでは、生成 AI モデルを使用してドキュメントを分類できます。
[分類ステーションを提示] の Attended アクティビティを使用して実現できます。このアクティビティは、自動分類の出力を検証および修正するための、ドキュメント処理固有のユーザー インターフェイスを表示します。
特にファイル分割に関係するユースケースでは、データ抽出のダウンストリーム処理が適切に機能することを保証するために、人間の分類検証ステップを使用することを強くお勧めします。
Attended アクティビティの代わりに、人間とロボットのコラボレーションを最適に実現するように設計された長期実行のワークフローを使用することもできます。[ドキュメント分類アクションを作成] および [ドキュメント分類アクション完了まで待機し再開] アクティビティは、このシナリオを可能にします。
[分類器トレーニング スコープ] アクティビティを使用して実現できます。これにより、学習能力を持つ分類アルゴリズムのフィードバック ループを閉じることができます。このスコープ アクティビティ内に分類器トレーナーをドラッグ アンド ドロップします。さらに、分類ステーションまたは検証ステーションで人間が検証した情報が分類器のパフォーマンス向上に使用されていることを、分類器トレーナーが [分類器を設定] ウィザードを使用して確認できるようにします。
分類は、使用される分類器と同程度に効率的です。ドキュメントが適切に分類されなかった場合は、そのドキュメントがアクティブな分類器にとって不明であったことを意味します。このフレームワークは、ドキュメント クラスの認識を向上させるために、分類器をトレーニングする機会を提供します。
利用可能な分類器トレーナーは以下のとおりです。
- [キーワード ベースの分類器トレーナー] は、[キーワード ベースの分類器] とペアとなるトレーナー アクティビティです。
- [インテリジェント キーワード分類器トレーナー] は、[インテリジェント キーワード分類器] のためのフィードバック ループを可能にします。
- [マシン ラーニング分類器トレーナー] は、[マシン ラーニング分類器] と組み合わせて使用するトレーナー アクティビティです。
[データ抽出スコープ] アクティビティを使用して実現できます。これにより、任意のデータ抽出アルゴリズムを使用して、分類されたドキュメントのさまざまなフィールドを識別できます。
抽出とは、特定のドキュメントの種類から関心のあるデータだけを取得することです。たとえば、5 ページのドキュメントから特定のデータを抽出することは、文字列操作で行う場合は非常に面倒です。このフレームワークでは、同じデータ抽出スコープで、さまざまなドキュメント構造に対してさまざまな抽出器を使用できます。抽出結果は、さらに検証するために渡されます。
利用可能な抽出器は以下のとおりです。
- 正規表現ベースの抽出器は、特定のフィールドに最適な候補を識別するために、正規表現による一致を適用する基本的なデータ抽出器です。
- フォーム抽出器は、事前定義されたテンプレートを使用して、構造化された固定フォームのドキュメントの処理を可能にします。
- マシン ラーニング抽出器は、AI とマシン ラーニングのパワーを活用して、UiPath® の公開データ抽出サービスの 1 つを使用するか、AI Center で構築およびホストできるトレーニング済みのマシン ラーニングのカスタム モデルを呼び出すことにより、構造化または半構造化されたドキュメントの情報を識別します。このアクティビティは UiPath.DocumentUnderstanding.ML.Activities パッケージの一部です。
- 生成 AI 抽出器を使用すると、生成 AI モデルを使用してドキュメントを抽出できます。このアクティビティは UiPath.DocumentUnderstanding.ML.Activities パッケージの一部です。
[検証ステーションを提示] の Attended アクティビティを使用して実現できます。このアクティビティは、データを検証および修正するための、ドキュメント処理固有のユーザー インターフェイスを表示します。
- 抽出されたデータは、検証ステーションを介して人間のユーザーが検証できます。ベスト プラクティスは、実装する特定のユース ケースに応じたルールを使用して、人間による検証ステップを追加するかどうかの決定に基づいてロジックを構築することです。その後、検証結果をエクスポートして、以降のオートメーション アクティビティで使用できます。
- また、[ドキュメント検証アクションを作成] および [ドキュメント検証アクション完了まで待機し再開] アクティビティを使用して、長期実行のワークフローを通じて人間による検証を有効化し、人間とロボットのコラボレーションを最適化することもできます。
[抽出器トレーニング スコープ] アクティビティを使用して実現できます。これにより、学習能力を持つデータ抽出アルゴリズムのフィードバック ループを閉じることができます。このスコープ アクティビティ内に抽出器トレーナーをドラッグ アンド ドロップします。さらに、検証ステーションで人間が検証した情報が抽出器のパフォーマンス向上に使用されていることを、抽出器トレーナーが [抽出器を設定] ウィザードを使用して確認できるようにします。
抽出は、使用される抽出器と同程度に効率的です。フィールド値が適切に抽出されなかった場合は、それらのフィールド値がアクティブな抽出器にとって不明であったことを意味します。このフレームワークは、フィールド値の認識を向上させるために、抽出器をトレーニングする機会を提供します。
マシン ラーニング抽出器トレーナーは、AI Center でホストされているマシン ラーニング モデルの再トレーニングに必要なデータを収集することにより、ML ベースのデータ抽出のフィードバック ループを閉じます。このアクティビティはマシン ラーニング抽出器のコンパニオンであり、UiPath.DocumentUnderstanding.ML.Activities パッケージの一部です。
[抽出結果をエクスポート] アクティビティを使用して実現できます。これにより、抽出されたデータの複雑な構造を単純な DataSet (データテーブルのコレクション) にエクスポートできます。
検証済みの情報を取得したら、それをそのまま使用することも、Excel ファイルに非常に簡単に変換できるデータテーブル形式で保存することもできます。
UiPath.IntelligentOCR.Activities パッケージは、パブリックの UiPath.DocumentProcessing.Contracts パッケージに基づいて構築されている任意のカスタム分類やデータ抽出アクティビティとともに利用できます。ユース ケースに固有の独自のアルゴリズムを構築するための完全な柔軟性を提供し、ドキュメント分類およびデータ抽出のためのサードパーティ ソリューションと連携します。
以下のバージョンのパッケージが公式フィードから削除されました。問題が発生した場合は、サポート チームにお問い合わせください。