- 概要
- Document Understanding Process
- クイックスタート チュートリアル
- フレームワーク コンポーネント
- ML パッケージ
- パイプライン
- Document Manager
- OCR サービス
- Automation Suite にデプロイされた Document Understanding
- AI Center スタンドアロンにデプロイされた Document Understanding
- ディープ ラーニング
- ライセンス
- 参照
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Document Understanding ガイド
ML パッケージについて
Document Understanding ML パッケージを使用するには、以下の手順を実行します。
- ドキュメントのサンプルと、抽出が必要なデータ ポイントの要件を収集します。
- Document Manager を使用して、ドキュメントをラベル付けします。Document Manager 自体が OCR サービスに接続します。
- ラベル付けされたドキュメントをトレーニング データ セットとしてダウンロードまたはエクスポートし、エクスポートしたフォルダーを AI Center のストレージにアップロードします。
- ラベル付けされたドキュメントを評価データセットとしてダウンロードまたはエクスポートし、エクスポートしたフォルダーを AI Center のストレージにアップロードします。
- AI Center でトレーニング パイプラインを実行します。
- AI Center の評価パイプラインで、モデルのパフォーマンスを評価します。
- トレーニング済みのモデルを、ML スキルとして AI Center にデプロイします。
- UiPath.DocumentUnderstanding.ML アクティビティ パッケージを使用して、RPA ワークフローから ML スキルにクエリを実行します。
注: Document Understanding ML パッケージを使用するには、AI Center をインストールしたマシンが
https://du-metering.uipath.com
にアクセスできる必要があります。重要: AI Center で UiPath.DocumentUnderstanding.ML.Activities パッケージを作成する際、パッケージ名にclass
、break
、from
、finally
、global
、None
などの Python の予約語を使用しないでください。なお、パッケージ名はclass <pkg-name>
とimport <pkg-name>
で使用されるため、前述の予約語は一例であり他の予約語もある点にご注意ください。
すぐに使えるマシン ラーニング モデルを使用すると、半構造化または非構造化ドキュメントによく見られる標準フィールド、表の列、分類フィールドなどのデータ ポイントを、テンプレートを使用せずに分類して抽出できます。
UiPath が提供する、すぐに使えるマシン ラーニング パッケージのバージョン番号は 0 であり、既にお使いのテナントで利用できる状態になっているためダウンロードの必要はありません。
ダウンロードできるのは、バージョン番号が 1 以上のトレーニング済みのバージョンのみです。
Document Understanding に含まれる ML パッケージは、5 つの主要なカテゴリに分けられます。
- UiPathDocument OCR (UiPath ドキュメント OCR)
- DocumentUnderstanding (ドキュメントの理解)
- DocumentClassifier (ドキュメント分類)
- Out-of-the-box Pre-trained ML Packages
- AI Center の、すぐに使える事前トレーニング済みの Document Understanding ML パッケージ
- その他のすぐに使える ML パッケージ
再トレーニング不可のモデルです。[ドキュメントをデジタル化] アクティビティの一部として [UiPath Document OCR] アクティビティとともに使用できます。このモデルを使用するには、まず ML スキルを公開し、[UiPath Document OCR] アクティビティに URL をコピーして貼り付けられるようにする必要があります。
UiPathDocumentOCR は、GPU または CPU で実行でき、どちらの場合でも同じ精度が得られます。GPU でのトレーニング速度は CPU でのトレーニング速度よりも高速です。詳しくは、「ハードウェア要件」をご覧ください。
UiPathDocumentOCR の ML スキルがオンプレミスの AI Center の標準デプロイで実行されている場合は、 Document Understanding 測定サーバー (https://du.uipath.com/metering) へのアクセス権が必要です。オンプレミスの AI Center のエアギャップ環境のデプロイである場合は、インターネット アクセスは必要ありません。
この ML パッケージは UiPathDocumentOCR (UiPath ドキュメント OCR) ML パッケージと同じ方法でデプロイできますが、以下の違いがあります。
- CPU での実行に最適化されているため、ワークフローでの実行時の速度が 3 倍から 4 倍、Document Manager にドキュメントをインポートする際の速度が 5 倍から 10 倍向上します。
- 精度は UiPathDocumentOCR パッケージよりも若干低く、Studio の UiPath.DocumentUnderstanding.OCR.LocalServer パッケージと同程度となります。
- より高速であるため、ドキュメントが大きい場合 (ドキュメントあたり 20 ページ以上)、GPU がなければ CPU も推奨されます。ただし、GPU が理想的です。
一般的で再トレーニング可能なモデルです。あらゆる種類の構造化または半構造化ドキュメントによく見られるデータ ポイントを抽出し、モデルをゼロから構築できます。この ML パッケージはトレーニングする必要があります。トレーニングしないでデプロイすると、モデルがトレーニングされていないことを示すエラーが表示され、デプロイが失敗します。
一般的で再トレーニング可能なモデルです。あらゆる種類の構造化または半構造化ドキュメントを分類し、モデルをゼロから構築できます。この ML パッケージはトレーニングする必要があります。トレーニングしないでデプロイすると、モデルがトレーニングされていないことを示すエラーが表示され、デプロイが失敗します。
これらは、さまざまなマシン ラーニング モデルのナレッジを保持する、再トレーニング可能な ML パッケージです。
パイプライン実行を使用して、追加のフィールドを抽出したり追加の言語をサポートしたりするようにカスタマイズできます。また、最先端の転送学習機能を使用して、追加のラベル付け済みドキュメントで再トレーニングできます。さらに、特定のユース ケースに合わせて調整したり、ラテン語、キリル文字、またはギリシャ語をサポートするよう拡張したりできます。
使用されるデータセットには、同じフィールド、フィールドのサブセット、または追加のフィールドが含まれる場合があります。事前トレーニング済みモデルの既存のインテリジェンスを活用するには、すぐに使えるモデル内で使用されているフィールドと同じ名前のフィールドを使用する必要があります。
これらの ML パッケージは次のとおりです。
- Invoices (請求書): 既定で抽出されるフィールドについては、こちらをご覧ください。
- InvoicesAustralia (請求書 - オーストラリア): 既定で抽出されるフィールドについては、こちらをご覧ください。
- InvoicesIndia (請求書 - インド): 既定で抽出されるフィールドについては、こちらをご覧ください。
-
InvoicesJapan (請求書 - 日本) (プレビュー): 既定で抽出されるフィールドについては、こちらをご覧ください。
現在、検証ステーションのデータを使用した再トレーニングはサポートされていません。
-
InvoicesChina (請求書 - 中国) (プレビュー): 既定で抽出されるフィールドについては、こちらをご覧ください。
現在、検証ステーションのデータを使用した再トレーニングはサポートされていません。
- Receipts (領収書): 既定で抽出されるフィールドについては、こちらをご覧ください。
- Purchase Orders (発注書): 既定で抽出されるフィールドについては、こちらをご覧ください。
- Utility Bills (公共料金請求書): 既定で抽出されるフィールドについては、こちらをご覧ください。
- ID Cards (ID カード): 既定で抽出されるフィールドについては、こちらをご覧ください。
- Passports (パスポート): 既定で抽出されるフィールドについては、こちらをご覧ください。
- RemittanceAdvices (送金通知書): 既定で抽出されるフィールドについては、こちらをご覧ください。
- BillsOfLading (船荷証券): 既定で抽出されるフィールドについては、こちらをご覧ください。
- W2 (米国の源泉徴収票): 既定で抽出されるフィールドについては、こちらをご覧ください。
- W9 (米国の納税申告書): 既定で抽出されるフィールドについては、こちらをご覧ください。
- ACORD125 (企業向け保険契約申込書): 既定で抽出されるフィールドについては、こちらをご覧ください。
- I9 (米国の就労資格証明書): 既定で抽出されるフィールドについては、こちらをご覧ください。
- 990 (米国の所得税非課税団体申告書) (プレビュー): 既定で抽出されるフィールドについては、こちらをご覧ください。
- 4506T (米国の納税申告証明依頼書): 既定で抽出されるフィールドについては、こちらをご覧ください。
- FM1003 (米国の統一住宅ローン申請書) (プレビュー): 既定で抽出されるフィールドについては、こちらをご覧ください。
- ACORD25 (賠償責任保険証明書): 既定で抽出されるフィールドについては、こちらをご覧ください。
- 1040 (米国の個人所得税申告書): 既定で抽出されるフィールドについては、こちらをご覧ください。
- Checks (小切手): 既定で抽出されるフィールドについては、こちらをご覧ください。
- Bank Statements (銀行預金残高証明書) - 既定で抽出されるフィールドについては、こちらをご覧ください。
- Financial Statements (財務諸表) - 既定で抽出されるフィールドについては、こちらをご覧ください。
- Packing Lists (梱包明細書): 既定で抽出されるフィールドについては、こちらをご覧ください。
- ACORD131 (アンブレラ/エクセス保険): 既定で抽出されるフィールドについては、こちらをご覧ください。
- ACORD126 (企業総合賠償責任保険): 既定で抽出されるフィールドについては、こちらをご覧ください。
- ACORD140 (商業保険申込書の財物補償条項): 既定で抽出されるフィールドについては、こちらをご覧ください。
- Vehicle Titles (自動車の権利書): 既定で抽出されるフィールドについては、こちらをご覧ください。
これらのモデルは、UiPath が構築したディープラーニング アーキテクチャです。サービング時とトレーニング時の両方で GPU を使用できますが、必須ではありません。GPU によって、速度が 10 倍以上向上します (特にトレーニング時)。
すぐに使える事前トレーニング済みの ML パッケージは、各モデルの意図する用途に基づいて以下のドキュメントのカテゴリに分けられます。
ドキュメントのカテゴリ |
ML モデル |
---|---|
顧客確認 |
|
保険 |
|
融資 |
|
人事 |
|
Shipping (出荷) |
|
AP (買掛金) |
|
AR (売掛金) |
|
経費 |
|
これらは、Document Understanding スイートの非 ML コンポーネントに必要な再トレーニング不可のパッケージです。
これらの ML パッケージは次のとおりです。
- FormExtractor (フォーム抽出器): パブリック スキルとしてデプロイし、URL を [フォーム抽出器] アクティビティ内に貼り付けます。
- IntelligentFormExtractor (インテリジェント フォーム抽出器): パブリック スキルとしてデプロイし、URL を [インテリジェント フォーム抽出器] アクティビティ内に貼り付けます。最初に HandwritingRecognition (手書き文字認識) ML スキルをデプロイし、このスキルを上記パッケージの OCR として構成してください。
- IntelligentKeywordClassifier (インテリジェント キーワード分類器): パブリック スキルとしてデプロイし、URL を [インテリジェント キーワード分類器] アクティビティ内に貼り付けます。
- HandwritingRecognition (手書き文字認識): パブリック スキルとしてデプロイし、IntelligentFormExtractor (インテリジェント フォーム抽出器) パッケージを作成するときに OCR として使用します。