- 概要
- Document Understanding Process
- クイック スタート チュートリアル
- フレームワーク コンポーネント
- ML パッケージ
- 概要
- Document Understanding - ML パッケージ
- DocumentClassifier (ドキュメント分類) - ML パッケージ
- OCR 機能を持つ ML パッケージ
- 1040 (米国の個人所得税申告書) - ML パッケージ
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ML パッケージ
- 1040 Schedule D (米国の個人所得税申告書のスケジュール D) - ML パッケージ
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ML パッケージ
- 1040x (米国の個人所得税修正申告書) - ML パッケージ
- 3949a - ML パッケージ
- 4506T (米国の納税申告証明依頼書) - ML パッケージ
- 709 (米国の贈与税申告書) - ML パッケージ
- 941x (米国の雇用主による四半期連邦税修正申告書) - ML パッケージ
- 9465 (米国の分割納付申請書) - ML パッケージ
- 990 (米国の所得税非課税団体申告書) - ML パッケージ (プレビュー)
- ACORD125 (企業向け保険契約申込書) - ML パッケージ
- ACORD126 (企業総合賠償責任保険) - ML パッケージ
- ACORD131 (アンブレラ/エクセス保険) - ML パッケージ
- ACORD140 (商業保険申込書の財物補償条項) - ML パッケージ
- ACORD25 (賠償責任保険証明書) - ML パッケージ
- Bank Statements (銀行預金残高証明書) - ML パッケージ
- BillsOfLading (船荷証券) - ML パッケージ
- Certificate of Incorporation (会社存在証明書) - ML パッケージ
- Certificate of Origin (原産地証明書) - ML パッケージ
- Checks (小切手) - ML パッケージ
- Children's Product Certificate (子供向け製品証明書) - ML パッケージ
- CMS 1500 (米国の医療保険請求フォーム) - ML パッケージ
- EU Declaration of Conformity (EU 適合宣言書) - ML パッケージ
- Financial Statements (財務諸表) - ML パッケージ
- FM1003 (米国の統一住宅ローン申請書) - ML パッケージ
- I9 (米国の就労資格証明書) - ML パッケージ
- ID Cards (ID カード) - ML パッケージ
- Invoices (請求書) - ML パッケージ
- InvoicesChina (請求書 - 中国) - ML パッケージ
- Invoices Hebrew (請求書 - ヘブライ語) - ML パッケージ
- InvoicesIndia (請求書 - インド) - ML パッケージ
- InvoicesJapan (請求書 - 日本) - ML パッケージ
- Invoices Shipping (船積送り状) - ML パッケージ
- Packing Lists (梱包明細書) - ML パッケージ
- Passports (パスポート) - ML パッケージ
- Payslips (給与明細) - ML パッケージ
- Purchase Orders (発注書) - ML パッケージ
- Receipts (領収書) - ML パッケージ
- RemittanceAdvices (送金通知書) - ML パッケージ
- UB-04 (健康保険請求フォーム) - ML パッケージ
- Utility Bills (公共料金の請求書) - ML パッケージ
- Vehicle Titles (自動車の権利書) - ML パッケージ
- W2 (米国の源泉徴収票) - ML パッケージ
- W9 (米国の納税申告書) - ML パッケージ
- その他のすぐに使える ML パッケージ
- パブリック エンドポイント
- ハードウェア要件
- パイプライン
- Document Manager
- OCR サービス
- サポートされている言語
- ディープ ラーニング
- Insights のダッシュボード
- Automation Suite にデプロイされた Document Understanding
- AI Center スタンドアロンにデプロイされた Document Understanding
- ライセンス
- Activities (アクティビティ)
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities

Document Understanding ガイド
タクソノミーの概要
タクソノミーとは
The Taxonomy is the metadata that the Document UnderstandingTM framework considers in each of its steps.
- タクソノミーは、ドキュメントの種類のコレクションです。
- ドキュメントの種類は、さまざまな業務プロセスで処理する必要のある、ドキュメントの論理的な種類の定義です。ドキュメントの種類の例として、請求書、医療記録、IRS フォーム W-2、契約書などがあります。ドキュメントの種類には通常、名前、グループ、カテゴリ (処理を容易にするため) のほかに、フィールドのコレクションが含まれます。
- フィールドは、特定のドキュメントの種類で検出・取得が期待される情報の 1 つです。
タクソノミーは階層構造であり、Document Understanding フレームワークが全体にわたって使用する情報のスキーマが含まれます。タクソノミーにある (ドキュメントの種類またはフィールドの) エンティティ定義はそれぞれ、一意の ID を持ちます。
ドキュメント分類でどのように役立つか?
受信ファイルをさまざまなドキュメントの種類に分類する場合、タクソノミーには具体的に処理するドキュメントの種類が含まれている必要があります。これにより、均一なデータ スキーマ (タクソノミーの構造) に基づいて Document Understanding プロセスを設定できます。
データ抽出でどのように役立つか?
特定のドキュメントの種類からデータを抽出する場合、タクソノミーには自動データ抽出の対象とするフィールドのリストが含まれます。これにより、信頼できる唯一の情報源であるデータ スキーマ (ドキュメントの種類の構造) に基づいて、さまざまな抽出方法やルールを設定できます。
フィールドの種類と詳細
フィールドには、派生部分が含まれることがあります。これは、ドキュメントで検出された元のテキスト値から取得または編集された書式付きの情報です。
| フィールドの種類 | 複数値の許容 | 目的 | 書式設定用の派生パーツ | その他の情報 |
|---|---|---|---|---|
| テキスト | はい | テキストによる情報 | N/A | N/A |
| Number | はい | 数値 |
| N/A |
| 日付 | はい | 日付 |
| Date fields allow for the definition of an Expected Format , which must be an MSDN-compliant date format string (for example, dd-MM-yyyy or MM, dd, yyyy ). この形式は、[データ抽出スコープ] アクティビティが日付を解析して、日、月、年の各構成要素への分解を試みるときに使用されます。 |
| 名前 | はい | 個人の氏名 |
| N/A |
| Address | はい | 住所 |
| N/A |
| Set | はい | 事前定義済みのセットから可能な値のリストを定義 | N/A | [Set] フィールドは、許容されるオプションを値として定義する必要があります。これらの値は、検証ステーションに反映されます。 |
| Boolean | はい | はい/いいえの値 | N/A | [Boolean] フィールドの許容値は、Yes (はい) または No (いいえ) のみです。この値は検証ステーションに反映されます。 |
| 表 | いいえ | 表形式データ | N/A | [Table] フィールドには、列の定義が含まれます。 |
| Table Column | いいえ | 表内の各セルです。 | N/A | [Table] フィールド内の [Table Column] は、コンポーネント リストの通常のフィールドの1つのとして定義されます。 Table 型にすることはできません。 |
例外
You can define default Report as Exception reasons at the taxonomy level. These predefined reasons appear in Validation Station when a business user reports a document as an exception.
これにより、ビジネス ユーザーは、定義済みの理由 (タクソノミー マネージャーで定義した例外の理由) に基づいてドキュメントを例外としてマークできます。
たとえば、ユーザーが請求書を期待しているのに医療記録を受け取ったり、韓国語のドキュメントを期待しているのにロシア語のドキュメントを受け取ったり、判読可能なドキュメントを期待しているのに非常に低品質のドキュメントを受け取ったりする可能性があります。
定義した理由はドロップダウン リストに表示され、ユーザーはそこから最も適切なオプションを選択できます。選択した理由に基づいて、次に実行する処理パスを決定するように、再開するオートメーションを設定できます。
タクソノミーでキャプチャされるその他の情報
また、タクソノミーは、グループとカテゴリのリストとともに、処理済みのドキュメントと関連付けできる対応言語のコレクションも含みます。たとえば、日本語と英語でドキュメントを処理するには、Supported Languages タグに対応する表示名と言語コードを含める必要があります。例外のケースをサポートするために、Undetermined Language (code und) の追加を推奨します。
タクソノミー拡張メソッド
Serialize()
DocumentTaxonomy オブジェクトで呼び出されます。Serialize() メソッドは、オブジェクトの JSON 表現を返します。これを格納しておけば、後で取得して使用できます。
Deserialize(String)
DocumentTaxonomy.Deserialize(jsonString) スタティック拡張は、DocumentTaxonomy オブジェクトを返します。このオブジェクトは、パラメーターとして渡された JSON エンコードデータでハイドレートされています。
GetFields(String)
Called on a DocumentTaxonomy object, the GetFields() method called with a DocumentTypeId string returns a list of fields defined within that document type.
プロジェクトのタクソノミーを作成および編集する方法
Once the UiPath.IntelligentOCR.Activities package is installed in your project in UiPath® Studio, a Taxonomy Manager button appears in the main ribbon of Studio's Design tab. Use the Taxonomy Manager wizard to edit your project taxonomy.
タクソノミーは UiPath Studio プロジェクト内のファイル、DocumentProcessing フォルダー、および taxonomy.json ファイルに格納されます。
The file is automatically created when you first open the Taxonomy Manager wizard. You can check the exact location of the file in the Taxonomy Manager, by hovering over the
button. Alternatively, each time you open the Taxonomy Manager, a pop-up message will appear in the upper right corner, informing you of the location of the file. When a project is published from Studio, the taxonomy will be published as well as an artifact of the project.
taxonomy.json ファイルは各プロジェクトに固有のものですが、手動でコピーすれば新しいプロジェクトにも再利用できます。このためには、新しいプロジェクトを作成してから、そのプロジェクト フォルダーに移動し、選択したタクソノミーを含むファイルを (DocumentProcessing フォルダー内の) 適切な場所にコピーします。
For data integrity purposes, we recommend you always edit the taxonomy using Taxonomy Manager.
プロジェクト内でタクソノミーを使用する方法
Document Understanding のタクソノミーは、Document Understanding フレームワーク全体でオブジェクトとして必要になります。
The simplest and most convenient way to load your object is by using the Load Taxonomy activity. Once your taxonomy object is loaded, you can use it in all subsequent framework components requiring it.
カスタム ユース ケース
-
タクソノミーを別の場所に保存する場合でも、[代入] アクティビティを使用して、次のように、プロジェクトに読み込むことができます (たとえば、タクソノミー ファイルの文字列コンテンツを
myTaxonomyContentString変数で取得した場合)。myTaxonomy = DocumentTaxonomy.Deserialize(myTaxonomyContentString) -
ユース ケースで必要な場合、タクソノミーはたとえ実行時でも必要に応じて編集できる POCO (plain old class object) であることに留意してください。