- 概要
- Document Understanding Process
- クイック スタート チュートリアル
- 領収書からデータを抽出する
- 請求書のフィールドを 1 つ追加して再トレーニングする
- フォームからデータを抽出する
- フレームワーク コンポーネント
- ML パッケージ
- 概要
- Document Understanding - ML パッケージ
- DocumentClassifier (ドキュメント分類) - ML パッケージ
- OCR 機能を持つ ML パッケージ
- 1040 (米国の個人所得税申告書) - ML パッケージ
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ML パッケージ
- 1040 Schedule D (米国の個人所得税申告書のスケジュール D) - ML パッケージ
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ML パッケージ
- 1040x (米国の個人所得税修正申告書) - ML パッケージ
- 3949a - ML パッケージ
- 4506T (米国の納税申告証明依頼書) - ML パッケージ
- 709 (米国の贈与税申告書) - ML パッケージ
- 941x (米国の雇用主による四半期連邦税修正申告書) - ML パッケージ
- 9465 (米国の分割納付申請書) - ML パッケージ
- 990 (米国の所得税非課税団体申告書) - ML パッケージ (プレビュー)
- ACORD125 (企業向け保険契約申込書) - ML パッケージ
- ACORD126 (企業総合賠償責任保険) - ML パッケージ
- ACORD131 (アンブレラ/エクセス保険) - ML パッケージ
- ACORD140 (商業保険申込書の財物補償条項) - ML パッケージ
- ACORD25 (賠償責任保険証明書) - ML パッケージ
- Bank Statements (銀行預金残高証明書) - ML パッケージ
- BillsOfLading (船荷証券) - ML パッケージ
- Certificate of Incorporation (会社存在証明書) - ML パッケージ
- Certificate of Origin (原産地証明書) - ML パッケージ
- Checks (小切手) - ML パッケージ
- Children's Product Certificate (子供向け製品証明書) - ML パッケージ
- CMS 1500 (米国の医療保険請求フォーム) - ML パッケージ
- EU Declaration of Conformity (EU 適合宣言書) - ML パッケージ
- Financial Statements (財務諸表) - ML パッケージ
- FM1003 (米国の統一住宅ローン申請書) - ML パッケージ
- I9 (米国の就労資格証明書) - ML パッケージ
- ID Cards (ID カード) - ML パッケージ
- Invoices (請求書) - ML パッケージ
- InvoicesChina (請求書 - 中国) - ML パッケージ
- Invoices Hebrew (請求書 - ヘブライ語) - ML パッケージ
- InvoicesIndia (請求書 - インド) - ML パッケージ
- InvoicesJapan (請求書 - 日本) - ML パッケージ
- Invoices Shipping (船積送り状) - ML パッケージ
- Packing Lists (梱包明細書) - ML パッケージ
- Passports (パスポート) - ML パッケージ
- Payslips (給与明細) - ML パッケージ
- Purchase Orders (発注書) - ML パッケージ
- Receipts (領収書) - ML パッケージ
- RemittanceAdvices (送金通知書) - ML パッケージ
- UB-04 (健康保険請求フォーム) - ML パッケージ
- Utility Bills (公共料金の請求書) - ML パッケージ
- Vehicle Titles (自動車の権利書) - ML パッケージ
- W2 (米国の源泉徴収票) - ML パッケージ
- W9 (米国の納税申告書) - ML パッケージ
- その他のすぐに使える ML パッケージ
- パブリック エンドポイント
- ハードウェア要件
- パイプライン
- Document Manager
- OCR サービス
- サポートされている言語
- ディープ ラーニング
- Insights のダッシュボード
- Automation Suite にデプロイされた Document Understanding
- AI Center スタンドアロンにデプロイされた Document Understanding
- ライセンス
- Activities (アクティビティ)
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities

Document Understanding ガイド
請求書のフィールドを 1 つ追加して再トレーニングする
The aim of this page is to help first time users get familiar with Document UnderstandingTM.
For scalable production deployments, we strongly recommend using the Document Understanding Process available in UiPath® Studio under the Templates section.
このクイックスタート チュートリアルでは、すぐに使える Invoices (請求書) ML モデルに抽出フィールドを 1 つ追加する再トレーニングの方法について説明します。
Let’s use the same workflow we used for the receipts in the previous quickstart and modify it so it can support invoices.
そのためには、ワークフローで以下の手順を実行する必要があります。
- タクソノミーを変更する
- 分類器を追加する
- マシン ラーニング抽出器を追加する
- データをラベル付けする
- Invoices (請求書) ML モデルを再トレーニングする
1. タクソノミーを変更する
この手順では、タクソノミーを変更しドキュメントの種類として請求書を追加する必要があります。
To do so, open Taxonomy Manager and create group named Semi Structured Documents, a category named Finance, a document type named Invoices. Create the listed fields with user friendly names along with respective data types.
- name -
Text - vendor-addr -
Address - billing-name -
Text - billing-address -
Address - shipping-address -
Address - invoice-no -
Text - po-no -
Text - vendor-vat-no -
Text - date -
Date - tax -
Number - total -
Number - payment-terms -
Text - net-amount -
Number - due-date -
Date - discount -
Number - shipping-charges -
Number - payment-addr -
Address - description -
Text - items -
Table- description -
Text - quantity -
Number - unit-price -
Number - line-amount -
Number - item-po-no -
Text - line-no -
Text - part-no -
Text - billing-vat-no -
Text
- description -
2. 分類器を追加する
この手順では、ワークフローで領収書と請求書の両方を処理できるように分類器を追加する必要があります。
Since our workflow now supports two document types, Receipts and Invoices, we need to add the classifier to differentiate between different document types coming in as input:
- Add a Classify Document Scope after the Digitize Document activity and provide the DocumentPath, DocumentText, DocumentObjectModel, and Taxonomy as input arguments and capture the ClassificationResults in a new variable. We need this variable to check what document(s) we are processing.
- We also need to specify one or more classifiers. In this example, we are using the Intelligent Keyword Classifier. Add it to the Classify Document Scope activity. This page helps you take an educated decision on what classification method you should use in different scenarios.
- Train the classifier as described here.
- 両方のドキュメントの種類に対して分類器を有効化します。
- Depending on your usecase, you might want to validate the classification. You can do that using the Present Classification Station or the Create Document Classification Action and Wait For Document Classification Action And Resume activities.
3. マシン ラーニング抽出器を追加する
In this step, we need to add a Machine Learning Extractor to the Data Extraction Scope activity and connect it to the Invoices public endpoint.
手順は、Receipts (領収書) のマシン ラーニング抽出器を追加した手順とまったく同じです。
-
Receipts (領収書) の [マシン ラーニング抽出器] アクティビティの横に [マシン ラーニング抽出器] アクティビティをもう 1 つ追加します。
-
Provide the Invoices public endpoint, namely
https://du.uipath.com/ie/invoices, and an API key to the extractor. -
請求書のデータを抽出できるように、タクソノミー マネージャーで作成したフィールドを ML モデルで使用可能なフィールドにマッピングして、抽出器の設定を行います。
![[抽出器を設定] ダイアログを示すスクリーンショット](https://dev-assets.cms.uipath.com/assets/images/document-understanding/document-understanding-screenshot-describing-the-configure-extractors-dialog-117161-9fe33ec0-237464d9.webp)
-
Do not forget to use the ClassificationResults variable outputted by the Classify Document Scope as input to the Data Extraction Scope, instead of specifying a DocumentTypeId. You should end up with something like this:
![[データ抽出スコープ] ダイアログを示すスクリーンショット](https://dev-assets.cms.uipath.com/assets/images/document-understanding/document-understanding-screenshot-describing-the-data-extraction-scope-dialog-117371-7cb5bfa3-0559bebb.webp)
-
ワークフローを実行して、請求書のデータが正しく抽出されるかをテストします。
4. データをラベル付けする
Invoices (請求書) ML モデルで新しい IBAN フィールドが処理されるようにするには、ベース モデルを再トレーニングする前にデータをラベル付けする必要があります。
- Collect the requirements and sample invoice documents in sufficient volume for the complexity of the usecase you need to solve. Label 50 pages, as explained on this documentation page.
- Gain access to an instance of Document Manager either on premises or in AI Center in the Cloud. Make sure you have the permissions to use Document Manager.
- AI Center プロジェクトを作成し、 [データのラベル付け] > [UiPath Document Understanding] に移動して、データのラベル付けセッションを作成します。
- Configure an OCR Engine as described here, try importing a diverse set of your production documents and make sure that the OCR engine reads the text you need to extract. More suggestions in this section. Only proceed to next step after you have settled on a OCR engine.
- Create a fresh Document Manager session, and import a Training set and an Evaluation set, while making sure to check the Make this a Test set checkbox when importing the Evaluation set. More details about imports here.
- Create and configure the IBAN field as described here. More advanced guidelines are available in this section.
- Label a Training dataset and an Evaluation dataset as described here. The prelabeling feature of Document Manager described here can make the labeling work a lot easier.
- Export first the Evaluation set and then the Training set to AI Center by selecting them from the filter dropdown at the top of the Document Manager view. More details about exports here.
次に、モデルを作成し、再トレーニングしてデプロイします。
5. Invoices (請求書) ML モデルを再トレーニングする
ワークフローで請求書を処理できるようになったため、次は請求書から IBAN を抽出できるようにする必要があります。IBAN フィールドは、すぐに使える Invoices (請求書) ML モデルでは既定で抽出されません。つまり、ベース モデルを使用して再トレーニングを行う必要があります。
- Create an ML Package as described here. If your document type is different from the ones available out-of-the-box, then choose the DocumentUnderstanding ML Package. Otherwise, use the package closest to the document type you need to extract.
- Create a Training Pipeline as described here using the Input dataset which you exported in the previous section from Document Manager.
- When the training is done and you have package minor version 1, run an Evaluation Pipeline on this minor version and inspect the evaluation.xlsx side by side comparison. Use the detailed guidelines here.
- If the evaluation results are satisfactory, go to the ML Skills view and create an ML Skill using the new minor version of the ML Package. If you want to use this to do prelabeling in Document Manager, you need to select the Modify Current Deployment button at the top right of the ML Skill view and toggle on the Make ML Skill Public.
- After creating the ML skill, we now need to consume it in Studio. The easiest way to do that is to make the ML Skill public as described here. Then, the only thing left to do is simply replace the Invoices ML model public endpoint that we’ve initially added to the Machine Learning Extractor in our workflow with the public endpoint of the ML Skill.
- ワークフローを実行します。請求書の既定のフィールドに加えて、新たに追加した IBAN フィールドが抽出されることが確認できます。
サンプルをダウンロードする
Download this sample project using this link. You need to change the Machine Learning Extractor for Invoices from Endpoint mode to your trained ML Skill.