Document Understanding ガイド

ML パッケージについて

Document Understanding ML パッケージを使用するには、以下の手順を実行します。

ドキュメントのサンプルと、抽出が必要なデータポイントの要件を収集します。
Document Manager を使用して、ドキュメントをラベル付けします。Document Manager 自体が OCR サービスに接続します。
ラベル付けされたドキュメントをトレーニングデータセットとしてダウンロードまたはエクスポートし、エクスポートしたフォルダーを AI Center のストレージにアップロードします。
ラベル付けされたドキュメントを評価データセットとしてダウンロードまたはエクスポートし、エクスポートしたフォルダーを AI Center のストレージにアップロードします。
AI Center でトレーニングパイプラインを実行します。
AI Center の評価パイプラインで、モデルのパフォーマンスを評価します。
トレーニング済みのモデルを、ML スキルとして AI Center にデプロイします。
UiPath.DocumentUnderstanding.ML アクティビティパッケージを使用して、RPA ワークフローから ML スキルにクエリを実行します。
注: Document Understanding ＭL パッケージを使用するには、AI Center をインストールしたマシンが https://du-metering.uipath.com にアクセスできる必要があります。

重要: AI Center で UiPath.DocumentUnderstanding.ML.Activities パッケージを作成する際、パッケージ名に class、break、from、finally、global、None などの Python の予約語を使用しないでください。なお、パッケージ名は class <pkg-name> と import <pkg-name> で使用されるため、前述の予約語は一例であり他の予約語もある点にご注意ください。

すぐに使えるマシンラーニングモデルを使用すると、半構造化または非構造化ドキュメントによく見られる標準フィールド、表の列、分類フィールドなどのデータポイントを、テンプレートを使用せずに分類して抽出できます。

注:

UiPath が提供する、すぐに使えるマシンラーニングパッケージのバージョン番号は 0 であり、既にお使いのテナントで利用できる状態になっているためダウンロードの必要はありません。

ダウンロードできるのは、バージョン番号が 1 以上のトレーニング済みのバージョンのみです。

Document Understanding に含まれる ML パッケージは、5 つの主要なカテゴリに分けられます。

UiPathDocument OCR (UiPath ドキュメント OCR)
DocumentUnderstanding (ドキュメントの理解)
DocumentClassifier (ドキュメント分類)
Out-of-the-box Pre-trained ML Packages
AI Center の、すぐに使える事前トレーニング済みの Document Understanding ML パッケージ
その他のすぐに使える ML パッケージ

UiPathDocument OCR (UiPath ドキュメント OCR)

再トレーニング不可のモデルです。[ドキュメントをデジタル化] アクティビティの一部として [UiPath Document OCR] アクティビティとともに使用できます。このモデルを使用するには、まず ML スキルを公開し、[UiPath Document OCR] アクティビティに URL をコピーして貼り付けられるようにする必要があります。

UiPathDocumentOCR は、GPU または CPU で実行でき、どちらの場合でも同じ精度が得られます。GPU でのトレーニング速度は CPU でのトレーニング速度よりも高速です。詳しくは、「ハードウェア要件」をご覧ください。

UiPathDocumentOCR の ML スキルがオンプレミスの AI Center の標準デプロイで実行されている場合は、 Document Understanding 測定サーバー (https://du.uipath.com/metering) へのアクセス権が必要です。オンプレミスの AI Center のエアギャップ環境のデプロイである場合は、インターネットアクセスは必要ありません。

UiPathDocumentOCR_CPU

この ML パッケージは UiPathDocumentOCR (UiPath ドキュメント OCR) ML パッケージと同じ方法でデプロイできますが、以下の違いがあります。

CPU での実行に最適化されているため、ワークフローでの実行時の速度が 3 倍から 4 倍、Document Manager にドキュメントをインポートする際の速度が 5 倍から 10 倍向上します。
精度は UiPathDocumentOCR パッケージよりも若干低く、Studio の UiPath.DocumentUnderstanding.OCR.LocalServer パッケージと同程度となります。
より高速であるため、ドキュメントが大きい場合 (ドキュメントあたり 20 ページ以上)、GPU がなければ CPU も推奨されます。ただし、GPU が理想的です。

DocumentUnderstanding (ドキュメントの理解)

一般的で再トレーニング可能なモデルです。あらゆる種類の構造化または半構造化ドキュメントによく見られるデータポイントを抽出し、モデルをゼロから構築できます。この ML パッケージはトレーニングする必要があります。トレーニングしないでデプロイすると、モデルがトレーニングされていないことを示すエラーが表示され、デプロイが失敗します。

DocumentClassifier (ドキュメント分類)

一般的で再トレーニング可能なモデルです。あらゆる種類の構造化または半構造化ドキュメントを分類し、モデルをゼロから構築できます。この ML パッケージはトレーニングする必要があります。トレーニングしないでデプロイすると、モデルがトレーニングされていないことを示すエラーが表示され、デプロイが失敗します。

Out-of-the-box Pre-trained ML Packages

これらは、さまざまなマシンラーニングモデルのナレッジを保持する、再トレーニング可能な ML パッケージです。

パイプライン実行を使用して、追加のフィールドを抽出したり追加の言語をサポートしたりするようにカスタマイズできます。また、最先端の転送学習機能を使用して、追加のラベル付け済みドキュメントで再トレーニングできます。さらに、特定のユースケースに合わせて調整したり、ラテン語、キリル文字、またはギリシャ語をサポートするよう拡張したりできます。

使用されるデータセットには、同じフィールド、フィールドのサブセット、または追加のフィールドが含まれる場合があります。事前トレーニング済みモデルの既存のインテリジェンスを活用するには、すぐに使えるモデル内で使用されているフィールドと同じ名前のフィールドを使用する必要があります。

これらの ML パッケージは次のとおりです。

Invoices (請求書): 既定で抽出されるフィールドについては、こちらをご覧ください。
InvoicesAustralia (請求書 - オーストラリア): 既定で抽出されるフィールドについては、こちらをご覧ください。
InvoicesIndia (請求書 - インド): 既定で抽出されるフィールドについては、こちらをご覧ください。
InvoicesJapan (請求書 - 日本) (プレビュー): 既定で抽出されるフィールドについては、こちらをご覧ください。

現在、検証ステーションのデータを使用した再トレーニングはサポートされていません。
InvoicesChina (請求書 - 中国) (プレビュー): 既定で抽出されるフィールドについては、こちらをご覧ください。

現在、検証ステーションのデータを使用した再トレーニングはサポートされていません。
Receipts (領収書): 既定で抽出されるフィールドについては、こちらをご覧ください。
Purchase Orders (発注書): 既定で抽出されるフィールドについては、こちらをご覧ください。
Utility Bills (公共料金請求書): 既定で抽出されるフィールドについては、こちらをご覧ください。
ID Cards (ID カード): 既定で抽出されるフィールドについては、こちらをご覧ください。
Passports (パスポート): 既定で抽出されるフィールドについては、こちらをご覧ください。
RemittanceAdvices (送金通知書): 既定で抽出されるフィールドについては、こちらをご覧ください。
BillsOfLading (船荷証券): 既定で抽出されるフィールドについては、こちらをご覧ください。
W2 (米国の源泉徴収票): 既定で抽出されるフィールドについては、こちらをご覧ください。
W9 (米国の納税申告書): 既定で抽出されるフィールドについては、こちらをご覧ください。
ACORD125 (企業向け保険契約申込書): 既定で抽出されるフィールドについては、こちらをご覧ください。
I9 (米国の就労資格証明書): 既定で抽出されるフィールドについては、こちらをご覧ください。
990 (米国の所得税非課税団体申告書) (プレビュー): 既定で抽出されるフィールドについては、こちらをご覧ください。
4506T (米国の納税申告証明依頼書): 既定で抽出されるフィールドについては、こちらをご覧ください。
FM1003 (米国の統一住宅ローン申請書) (プレビュー): 既定で抽出されるフィールドについては、こちらをご覧ください。
ACORD25 (賠償責任保険証明書): 既定で抽出されるフィールドについては、こちらをご覧ください。
1040 (米国の個人所得税申告書): 既定で抽出されるフィールドについては、こちらをご覧ください。
Checks (小切手): 既定で抽出されるフィールドについては、こちらをご覧ください。
Bank Statements (銀行預金残高証明書) - 既定で抽出されるフィールドについては、こちらをご覧ください。
Financial Statements (財務諸表) - 既定で抽出されるフィールドについては、こちらをご覧ください。
Packing Lists (梱包明細書): 既定で抽出されるフィールドについては、こちらをご覧ください。
ACORD131 (アンブレラ/エクセス保険): 既定で抽出されるフィールドについては、こちらをご覧ください。
ACORD126 (企業総合賠償責任保険): 既定で抽出されるフィールドについては、こちらをご覧ください。
ACORD140 (商業保険申込書の財物補償条項): 既定で抽出されるフィールドについては、こちらをご覧ください。
Vehicle Titles (自動車の権利書): 既定で抽出されるフィールドについては、こちらをご覧ください。

これらのモデルは、UiPath が構築したディープラーニングアーキテクチャです。サービング時とトレーニング時の両方で GPU を使用できますが、必須ではありません。GPU によって、速度が 10 倍以上向上します (特にトレーニング時)。

すぐに使える事前トレーニング済みの ML パッケージは、各モデルの意図する用途に基づいて以下のドキュメントのカテゴリに分けられます。

ドキュメントのカテゴリ	ML モデル
顧客確認	Passports (パスポート) ID Cards (ID カード) Utility Bills (公共料金の請求書) 4506T (米国の納税申告証明依頼書) 1040 (米国の個人所得税申告書) Checks (小切手) Vehicle Titles (自動車の権利書)
保険	ACORD125 (企業向け保険契約申込書) ACORD131 (アンブレラ/エクセス保険) ACORD126 (企業総合賠償責任保険) ACORD140 (商業保険申込書の財物補償条項)
融資	FM1003 (米国の統一住宅ローン申請書) W2 (米国の源泉徴収票) 4506T (米国の納税申告証明依頼書)
人事	Passports (パスポート) ID Cards (ID カード) W9 (米国の納税申告書) I9 (米国の就労資格証明書)
Shipping (出荷)	Invoices (請求書) Bills of Lading (includes Sea Waybills and Air Waybills) (船荷証券 (海上運送状、航空貨物運送状を含む)) Packing Lists (梱包明細書)
AP (買掛金)	Invoices (請求書) Utility Bills (公共料金の請求書)
AR (売掛金)	Remittance Advices (送金通知書) Purchase Orders (発注書) Bank Statements (銀行預金残高証明書) Financial Statements (財務諸表)
経費	Receipts (領収書)

その他のすぐに使える ML パッケージ

これらは、Document Understanding スイートの非 ML コンポーネントに必要な再トレーニング不可のパッケージです。

これらの ML パッケージは次のとおりです。

FormExtractor (フォーム抽出器): パブリックスキルとしてデプロイし、URL を [フォーム抽出器] アクティビティ内に貼り付けます。
IntelligentFormExtractor (インテリジェントフォーム抽出器): パブリックスキルとしてデプロイし、URL を [インテリジェントフォーム抽出器] アクティビティ内に貼り付けます。最初に HandwritingRecognition (手書き文字認識) ML スキルをデプロイし、このスキルを上記パッケージの OCR として構成してください。
IntelligentKeywordClassifier (インテリジェントキーワード分類器): パブリックスキルとしてデプロイし、URL を [インテリジェントキーワード分類器] アクティビティ内に貼り付けます。
HandwritingRecognition (手書き文字認識): パブリックスキルとしてデプロイし、IntelligentFormExtractor (インテリジェントフォーム抽出器) パッケージを作成するときに OCR として使用します。

UiPathDocument OCR (UiPath ドキュメント OCR)
UiPathDocumentOCR_CPU
DocumentUnderstanding (ドキュメントの理解)
DocumentClassifier (ドキュメント分類)
Out-of-the-box Pre-trained ML Packages
その他のすぐに使える ML パッケージ

このページは役に立ちましたか?

前へデータ消費

次へサポートされている言語