通知を受け取る

UiPath Document Understanding

UiPath Document Understanding

ML パッケージについて

Document Understanding ML パッケージを使用するには、以下の手順を実行します。

  • ドキュメントのサンプルと、抽出が必要なデータ ポイントの要件を収集します。
  • Labeling documents using Document Manager.
    Document Manager itself connects to an OCR Service.
  • ラベル付けされたドキュメントをトレーニング データ セットとしてダウンロードまたはエクスポートし、エクスポートしたフォルダーを AI Center のストレージにアップロードします。
  • ラベル付けされたドキュメントを評価データセットとしてダウンロードまたはエクスポートし、エクスポートしたフォルダーを AI Center のストレージにアップロードします。
  • AI Center でトレーニング パイプラインを実行します。
  • AI Center の評価パイプラインで、モデルのパフォーマンスを評価します。
  • トレーニング済みのモデルを、ML スキルとして AI Center にデプロイします。
  • Querying the ML Skill from an RPA workflow using the UiPath.DocumentUnderstanding.ML activity package.

📘

注:

Document Understanding ML パッケージを使用するには、AI Center をインストールしたマシンが https://du-metering.uipath.com にアクセスできる必要があります。

🚧

重要

AI Center で UiPath.DocumentUnderstanding.ML.Activities パッケージを作成する際、パッケージ名に classbreakfromfinallyglobalNone などの Python の予約語を使用しないでください。なお、パッケージ名は class <pkg-name>import <pkg-name> で使用されるため、前述の予約語は一例であり他の予約語もある点にご注意ください。

すぐに使えるマシン ラーニング モデルを使用すると、半構造化または非構造化ドキュメントによく見られる標準フィールド、表の列、分類フィールドなどのデータ ポイントを、テンプレートを使用せずに分類して抽出できます。

17001700

📘

注:

UiPath が提供する、すぐに使えるマシン ラーニング パッケージのバージョン番号は 0 であり、既にお使いのテナントで利用できる状態になっているためダウンロードの必要はありません。
ダウンロードできるのは、バージョン番号が 1 以上のトレーニング済みのバージョンのみです。

Document Understanding に含まれる ML パッケージは、5 つの主要なカテゴリに分けられます。

UiPathDocument OCR (UiPath ドキュメント OCR)

This is a non-retrainable model which can be used with the UiPath Document OCR engine activity as part of the Digitize Document activity. To be used, the ML Skill must first be made public so that a URL can be copy-pasted into the UiPath Document OCR engine activity.

UiPathDocumentOCR requires access to the Document Understanding metering server at https://du.uipath.com/metering if the ML skill is running on an AI Center on-premises regular deployment. No internet access is needed on AI Center on-premises air-gapped deployments.

UiPathDocumentOCR_CPU

この ML パッケージは UiPathDocumentOCR (UiPath ドキュメント OCR) ML パッケージと同じ方法でデプロイできますが、以下の違いがあります。

  • CPU での実行に最適化されているため、ワークフローでの実行時の速度が 3 倍から 4 倍、Document Manager にドキュメントをインポートする際の速度が 5 倍から 10 倍向上します。
  • accuracy is slightly lower than the UiPathDocumentOCR ML Package, and it is similar to the UiPath.DocumentUnderstanding.OCR.LocalServer Studio package

DocumentUnderstanding (ドキュメントの理解)

一般的で再トレーニング可能なモデルです。あらゆる種類の構造化または半構造化ドキュメントによく見られるデータ ポイントを抽出し、モデルをゼロから構築できます。この ML パッケージはトレーニングする必要があります。トレーニングしないでデプロイすると、モデルがトレーニングされていないことを示すエラーが表示され、デプロイが失敗します。

DocumentClassifier (ドキュメント分類)

一般的で再トレーニング可能なモデルです。あらゆる種類の構造化または半構造化ドキュメントを分類し、モデルをゼロから構築できます。この ML パッケージはトレーニングする必要があります。トレーニングしないでデプロイすると、モデルがトレーニングされていないことを示すエラーが表示され、デプロイが失敗します。

すぐに使える事前トレーニング済みの ML パッケージ

これらは、さまざまなマシン ラーニング モデルのナレッジを保持する、再トレーニング可能な ML パッケージです。

パイプライン実行を使用して、追加のフィールドを抽出したり追加の言語をサポートしたりするようにカスタマイズできます。また、最先端の転送学習機能を使用して、追加のラベル付け済みドキュメントで再トレーニングできます。さらに、特定のユース ケースに合わせて調整したり、ラテン語、キリル文字、またはギリシャ語をサポートするよう拡張したりできます。

使用されるデータセットには、同じフィールド、フィールドのサブセット、または追加のフィールドが含まれる場合があります。事前トレーニング済みモデルの既存のインテリジェンスを活用するには、すぐに使えるモデル内で使用されているフィールドと同じ名前のフィールドを使用する必要があります。

これらの ML パッケージは次のとおりです。

  • Invoices: The fields extracted out-of-the-box can be found here.

  • InvoicesAustralia : The fields extracted out-of-the-box can be found here. An upcoming deprecation is announced for this ML Package. Here you can find more details.

  • InvoicesIndia: The fields extracted out-of-the-box can be found here.

  • InvoicesJapan Preview: The fields extracted out-of-the-box can be found here.
    Retraining using data from Validation Station is currently not supported.

  • InvoicesChina Preview: The fields extracted out-of-the-box can be found here.
    Retraining using data from Validation Station is currently not supported.

  • Receipts: The fields extracted out-of-the-box can be found here.

  • Purchase Orders: The fields extracted out-of-the-box can be found here.

  • Utility Bills: The fields extracted out-of-the-box can be found here.

  • ID Cards : The fields extracted out-of-the-box can be found here.

  • Passports: The fields extracted out-of-the-box can be found here.

  • RemittanceAdvices: The fields extracted out-of-the-box can be found here.

  • BillsOfLading: The fields extracted out-of-the-box can be found here.

  • W2: The fields extracted out-of-the-box can be found here.

  • W9: The fields extracted out-of-the-box can be found here.

  • ACORD125: The fields extracted out-of-the-box can be found here

  • I9: The fields extracted out-of-the-box can be found here

  • 990 Preview: The fields extracted out-of-the-box can be found here

  • 4506T: The fields extracted out-of-the-box can be found here

  • FM1003 Preview: The fields extracted out-of-the-box can be found here

  • ACORD25 - The fields extracted out-of-the-box can be found here

  • 1040 - The fields extracted out-of-the-box can be found here

  • Checks - The fields extracted out-of-the-box can be found here

  • Bank Statements - The fields extracted out-of-the-box can be found here

  • Financial statements - The fields extracted out-of-the-box can be found here

  • Packing Lists - The fields extracted out-of-the-box can be found here

  • ACORD131 - The fields extracted out-of-the-box can be found here

  • ACORD126 - The fields extracted out-of-the-box can be found here

  • ACORD140 - The fields extracted out-of-the-box can be found here

  • Vehicle Titles - The fields extracted out-of-the-box can be found here

これらのモデルは、UiPath が構築したディープラーニング アーキテクチャです。サービング時とトレーニング時の両方で GPU を使用できますが、必須ではありません。GPU によって、速度が 10 倍以上向上します (特にトレーニング時)。

The Out-of-the-box Pre-trained ML Packages can be split into document categories based on the intended use of each model:

Document CategoryML Model
KYC Passports
ID Cards
Utility Bills
4506T
Insurance ACORD125
ACORD131
ACORD126
ACORD140
Lending FM1003
W2
4506T
HR Passports
ID Cards
W9
I9
Shipping Invoices
Bills of Lading (includes Sea Waybills and Air Waybills)
AP Invoices
Utility Bills
AR Remittance Advices
Purchase Orders
Expenses Receipts

Public Preview DU ML Packages in AI Center

This Public Preview version of ML Packages brings a new more advanced model architecture for our DU ML Packages in AI Center. It performs better on highly diverse, complex scenarios, especially on the column fields/line items.

The ML Packages appear in the same view as the other DU ML Packages, but they are identified by the "Preview" tag appended to the name of each package.

Please note that training on CPU takes significantly more time than on previous ML Packages (2x longer or more).
Being a preview version means that these models don't consume DU/AI units from your licensing entitlement. So test and evaluate to your heart's content!

📘

注:

There are two kinds of Preview models:

  • Out-of-the-box pre-trained models that are in a Preview state and are consuming units .
  • New AI Architecture Preview models that don't consume units.

Public Preview Models - New AI Architecture:

  • DocumentUnderstanding Preview : This is a generic, retrainable model for extracting any commonly occurring data points from any type of structured or semi-structured documents, building a model from scratch. This ML Package must be trained. If deployed without training first, deployment fails with an error stating that the model is not trained.

  • Invoices Preview: The fields extracted out-of-the-box can be found here.

  • InvoicesAustralia Preview: The fields extracted out-of-the-box can be found here.

  • InvoicesIndia Preview: The fields extracted out-of-the-box can be found here.

  • Receipts Preview: The fields extracted out-of-the-box can be found here.

  • Purchase Orders Preview: The fields extracted out-of-the-box can be found here.

  • Utility Bills Preview: The fields extracted out-of-the-box can be found here.

  • ID Cards Preview: The fields extracted out-of-the-box can be found here.

  • RemittanceAdvices Preview: The fields extracted out-of-the-box can be found here.

  • DeliveryNotes Preview: The fields extracted out-of-the-box can be found here.

  • W2 Preview: The fields extracted out-of-the-box can be found here.

  • W9 Preview: The fields extracted out-of-the-box can be found here.

  • ACORD125 Preview: The fields extracted out-of-the-box can be found here

  • I9 Preview: The fields extracted out-of-the-box can be found here

  • 990 Preview: The fields extracted out-of-the-box can be found here

  • 4506T Preview: The fields extracted out-of-the-box can be found here

  • FM1003 Preview: The fields extracted out-of-the-box can be found here

These models are deep learning architectures built by UiPath. A GPU may be used at training time but is mandatory only for larger datasets. A GPU delivers a greater than 10x improvement in speed for Training over CPUs.

その他のすぐに使える ML パッケージ

これらは、Document Understanding スイートの非 ML コンポーネントに必要な再トレーニング不可のパッケージです。

これらの ML パッケージは次のとおりです。

  • FormExtractor: Deploy as Public Skill and paste the URL into the Form Extractor activity.

  • IntelligentFormExtractor: Deploy as Public Skill and paste the URL into the Intelligent Form Extractor activity. Make sure to first deploy the HandwritingRecognition ML Skill and configure that as OCR for the this package.

  • IntelligentKeywordClassifier: Deploy as Public Skill and paste the URL into the Intelligent Keyword Classifier activity.

  • HandwritingRecognition (手書き文字認識): パブリック スキルとしてデプロイし、IntelligentFormExtractor (インテリジェント フォーム抽出器) パッケージを作成するときに OCR として使用します。

  • OCR for Chinese, Japanese, Korean : Available as an endpoint, CPU only, in Document Understanding framework. You can use the URL of this endpoint into the OCR for Chinese, Japanese and Korean activity, or directly in a Document Manager session, at configuration time.

4 日前に更新


ML パッケージについて


改善の提案は、API リファレンスのページでは制限されています

改善を提案できるのは Markdown の本文コンテンツのみであり、API 仕様に行うことはできません。