ML パッケージについて

Document Understanding ML パッケージを使用するには、以下の手順を実行します。

ドキュメントのサンプルと、抽出が必要なデータポイントの要件を収集します。
Data Manager を使用して、ドキュメントにラベル付けします。
Data Manager 自体は OCR サービスに接続します。
ラベル付けされたドキュメントをトレーニングデータセットとしてエクスポートし、エクスポートしたフォルダーを AI Center のストレージにアップロードします。
ラベル付けされたドキュメントをテストデータセットとしてエクスポートし、エクスポートしたフォルダーを AI Center のストレージにアップロードします。
AI Center でトレーニングパイプラインを実行します。
AI Center の評価パイプラインで、モデルのパフォーマンスを評価します。
トレーニングされたモデルを、ML スキルとして AI Center にデプロイします。
UiPath.DocumentUnderstanding.ML アクティビティパッケージを使用して、RPA ワークフローから ML スキルにクエリを実行します。
注: Document Understanding ML パッケージを使用するには、AI Center をインストールしたマシンが https://du-metering.uipath.com にアクセスできる必要があります。

重要: AI Center で UiPath.DocumentUnderstanding.ML.Activities パッケージを作成する際、パッケージ名に class、break、from、finally、global、None などの Python の予約語を使用しないでください。なお、パッケージ名は class <pkg-name> と import <pkg-name> で使用されるため、前述の予約語は一例であり他の予約語もある点にご注意ください。

すぐに使えるマシンラーニングモデルを使用すると、半構造化または非構造化ドキュメントによく見られる標準フィールド、表の列、分類フィールドなどのデータポイントを、テンプレートを使用せずに分類して抽出できます。

Document Understanding に含まれる複数の ML パッケージは、4 つの主要なカテゴリに分けられます。

UiPathDocument OCR (UiPath ドキュメント OCR)

再トレーニング不可のモデルです。[ドキュメントをデジタル化] アクティビティの一部として [UiPath ドキュメント OCR] アクティビティとともに使用できます。このモデルを使用するには、最初に公開し、[UiPath ドキュメント OCR] アクティビティに URL をコピーして貼り付けられるようにする必要があります。

UiPathDocumentOCR の ML スキルがオンプレミスの AI Center の標準デプロイで実行されている場合は、 Document Understanding 測定サーバー (https://du.uipath.com/metering) へのアクセス権が必要です。オンプレミスの AI Center のエアギャップ環境のデプロイである場合は、インターネットアクセスは必要ありません。

AI Center の UiPathDocumentOCR (UiPath ドキュメント OCR) ML パッケージは GPU での実行に最適化されているため、GPU での使用を強くお勧めします。GPU が利用できない場合は、スタンドアロンの Docker コンテナーの使用をお勧めします。

DocumentUnderstanding (ドキュメントの理解)

一般的で再トレーニング可能なモデルです。あらゆる種類の構造化または半構造化ドキュメントによく見られるデータポイントを抽出し、モデルをゼロから構築できます。この ML パッケージはトレーニングする必要があります。トレーニングしないでデプロイすると、モデルがトレーニングされていないことを示すエラーが表示され、デプロイが失敗します。

すぐに使える事前トレーニング済みの ML パッケージ

これらは、さまざまなマシンラーニングモデルのナレッジを保持する、再トレーニング可能な ML パッケージです。

パイプライン実行を使用して、追加のフィールドを抽出したり追加の言語をサポートしたりするようにカスタマイズできます。また、最先端の転送学習機能を使用して、追加のラベル付け済みドキュメントで再トレーニングできます。さらに、特定のユースケースに合わせて調整したり、ラテン語、キリル文字、またはギリシャ語をサポートするよう拡張したりできます。

使用されるデータセットには、同じフィールド、フィールドのサブセット、または追加のフィールドが含まれる場合があります。事前トレーニング済みモデルの既存のインテリジェンスを活用するには、すぐに使えるモデル内で使用されているフィールドと同じ名前のフィールドを使用する必要があります。

これらの ML パッケージは次のとおりです。

Invoices (請求書): 既定で抽出されるフィールドについては、こちらをご覧ください。
InvoicesAustralia (請求書 - オーストラリア) (プレビュー): 既定で抽出されるフィールドについては、こちらをご覧ください。
InvoicesIndia (請求書 - インド) (プレビュー): 既定で抽出されるフィールドについては、こちらをご覧ください。
InvoicesJapan (請求書 - 日本) (プレビュー): 既定で抽出されるフィールドについては、こちらをご覧ください。
Receipts (領収書): 既定で抽出されるフィールドについては、こちらをご覧ください。
PurchaseOrders (発注書) (プレビュー): 既定で抽出されるフィールドについては、こちらをご覧ください。
UtilityBills (公共料金の請求書) (プレビュー): 既定で抽出されるフィールドについては、こちらをご覧ください。

これらのモデルは、UiPath が構築したディープラーニングアーキテクチャです。サービング時とトレーニング時の両方で GPU を使用できますが、必須ではありません。GPU によって、速度が 10 倍以上向上します (特にトレーニング時)。

その他のすぐに使える ML パッケージ

これらは、Document Understanding スイートの非 ML コンポーネントに必要な再トレーニング不可のパッケージです。

これらの ML パッケージは次のとおりです。

FormExtractor (フォーム抽出器): パブリックスキルとしてデプロイし、URL を [フォーム抽出器] アクティビティ内に貼り付けます。
IntelligentFormExtractor (インテリジェントフォーム抽出器): パブリックスキルとしてデプロイし、URL を [インテリジェントフォーム抽出器] アクティビティ内に貼り付けます。最初に HandwritingRecognition (手書き文字認識) ML スキルをデプロイし、このスキルを上記パッケージの OCR として構成してください。
IntelligentKeywordClassifier (インテリジェントキーワード分類器): パブリックスキルとしてデプロイし、URL を [インテリジェントキーワード分類器] アクティビティ内に貼り付けます。
HandwritingRecognition (手書き文字認識): パブリックスキルとしてデプロイし、 IntelligentFormExtractor (インテリジェントフォーム抽出器) パッケージを作成するときに OCR として使用します。