通知を受け取る

UiPath Document Understanding

UiPath Document Understanding

ML パッケージについて

Document Understanding ML パッケージを使用するには、以下の手順を実行します。

  • ドキュメントのサンプルと、抽出が必要なデータ ポイントの要件を収集します。
  • Label documents using Data Manager.
    Data Manager itself will connect to an OCR Service.
  • ラベル付けされたドキュメントをトレーニング データ セットとしてエクスポートし、エクスポートしたフォルダーを AI Center のストレージにアップロードします。
  • ラベル付けされたドキュメントをテスト データ セットとしてエクスポートし、エクスポートしたフォルダーを AI Center のストレージにアップロードします。
  • AI Center でトレーニング パイプラインを実行します。
  • AI Center の評価パイプラインで、モデルのパフォーマンスを評価します。
  • トレーニングされたモデルを、ML スキルとして AI Center にデプロイします。
  • Query the ML Skill from an RPA workflow using the UiPath.DocumentUnderstanding.ML activity package.

📘

注:

Document Understanding ML パッケージを使用するには、AI Center をインストールしたマシンが https://du-metering.uipath.com にアクセスできる必要があります。

🚧

重要

When creating a UiPath.DocumentUnderstanding.ML.Activities Package in AI Center, the package name should not be any python reserved keyword, such as class , break from finally global None, etc. Note that this list is not exhaustive since the package name is used for class <pkg-name> and import <pkg-name> です。

すぐに使えるマシン ラーニング モデルを使用すると、半構造化または非構造化ドキュメントによく見られる標準フィールド、表の列、分類フィールドなどのデータ ポイントを、テンプレートを使用せずに分類して抽出できます。

10341034

Document Understanding に含まれる複数の ML パッケージは、4 つの主要なカテゴリに分けられます。

UiPathDocument OCR (UiPath ドキュメント OCR)

This is a non-retrainable model which can be used with the UiPath Document OCR engine activity as part of the Digitize Document activity. To be used, it must first be made public so that a URL can be copy-pasted into the UiPath Document OCR engine activity.

UiPathDocumentOCR requires access to the Document Understanding metering server at https://du.uipath.com/metering if the ML skill is running on an AI Center on-premises regular deployment. No internet access is needed on AI Center on-premises air-gapped deployments.

AI Center の UiPathDocumentOCR (UiPath ドキュメント OCR) ML パッケージは GPU での実行に最適化されているため、GPU での使用を強くお勧めします。GPU が利用できない場合は、スタンドアロンの Docker コンテナーの使用をお勧めします。

DocumentUnderstanding (ドキュメントの理解)

一般的で再トレーニング可能なモデルです。あらゆる種類の構造化または半構造化ドキュメントによく見られるデータ ポイントを抽出し、モデルをゼロから構築できます。この ML パッケージはトレーニングする必要があります。トレーニングしないでデプロイすると、モデルがトレーニングされていないことを示すエラーが表示され、デプロイが失敗します。

すぐに使える事前トレーニング済みの ML パッケージ

これらは、さまざまなマシン ラーニング モデルのナレッジを保持する、再トレーニング可能な ML パッケージです。

パイプライン実行を使用して、追加のフィールドを抽出したり追加の言語をサポートしたりするようにカスタマイズできます。また、最先端の転送学習機能を使用して、追加のラベル付け済みドキュメントで再トレーニングできます。さらに、特定のユース ケースに合わせて調整したり、ラテン語、キリル文字、またはギリシャ語をサポートするよう拡張したりできます。

使用されるデータセットには、同じフィールド、フィールドのサブセット、または追加のフィールドが含まれる場合があります。事前トレーニング済みモデルの既存のインテリジェンスを活用するには、すぐに使えるモデル内で使用されているフィールドと同じ名前のフィールドを使用する必要があります。

これらの ML パッケージは次のとおりです。

  • Invoices: The fields extracted out-of-the-box can be found here.

  • InvoicesAustralia (請求書 - オーストラリア) Preview: The fields extracted out-of-the-box can be found here.

  • InvoicesIndia (請求書 - インド) Preview: The fields extracted out-of-the-box can be found here.

  • InvoicesJapan (請求書 - 日本) Preview: The fields extracted out-of-the-box can be found here.

  • Receipts: The fields extracted out-of-the-box can be found here.

  • PurchaseOrders (発注書) Preview: The fields extracted out-of-the-box can be found here.

  • UtilityBills (公共料金の請求書) Preview: The fields extracted out-of-the-box can be found here.

これらのモデルは、UiPath が構築したディープラーニング アーキテクチャです。サービング時とトレーニング時の両方で GPU を使用できますが、必須ではありません。GPU によって、速度が 10 倍以上向上します (特にトレーニング時)。

その他のすぐに使える ML パッケージ

これらは、Document Understanding スイートの非 ML コンポーネントに必要な再トレーニング不可のパッケージです。

これらの ML パッケージは次のとおりです。

  • FormExtractor: Deploy as Public Skill and paste the URL into the Form Extractor activity.

  • IntelligentFormExtractor: Deploy as Public Skill and paste the URL into the Intelligent Form Extractor activity. Make sure to first deploy the HandwritingRecognition ML Skill and configure that as the OCR for this package.

  • IntelligentKeywordClassifier: Deploy as Public Skill and paste the URL into the Intelligent Keyword Classifier activity.

  • HandwritingRecognition (手書き文字認識): パブリック スキルとしてデプロイし、 IntelligentFormExtractor (インテリジェント フォーム抽出器) パッケージを作成するときに OCR として使用します。

5 か月前に更新


ML パッケージについて


改善の提案は、API リファレンスのページでは制限されています

改善を提案できるのは Markdown の本文コンテンツのみであり、API 仕様に行うことはできません。