- 概要
- 基本情報
- Activities (アクティビティ)
- Insights のダッシュボード
- Document Understanding Process
- クイック スタート チュートリアル
- フレームワーク コンポーネント
- 詳細
- 概要
- Document Understanding - ML パッケージ
- DocumentClassifier (ドキュメント分類) - ML パッケージ
- OCR 機能を持つ ML パッケージ
- 1040 (米国の個人所得税申告書) - ML パッケージ
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ML パッケージ
- 1040 Schedule D (米国の個人所得税申告書のスケジュール D) - ML パッケージ
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ML パッケージ
- 1040x (米国の個人所得税修正申告書) - ML パッケージ
- 3949a - ML パッケージ
- 4506T (米国の納税申告証明依頼書) - ML パッケージ
- 709 (米国の贈与税申告書) - ML パッケージ
- 941x (米国の雇用主による四半期連邦税修正申告書) - ML パッケージ
- 9465 (米国の分割納付申請書) - ML パッケージ
- ACORD125 (企業向け保険契約申込書) - ML パッケージ
- ACORD126 (企業総合賠償責任保険) - ML パッケージ
- ACORD131 (アンブレラ/エクセス保険) - ML パッケージ
- ACORD140 (商業保険申込書の財物補償条項) - ML パッケージ
- ACORD25 (賠償責任保険証明書) - ML パッケージ
- Bank Statements (銀行預金残高証明書) - ML パッケージ
- BillsOfLading (船荷証券) - ML パッケージ
- Certificate of Incorporation (会社存在証明書) - ML パッケージ
- Certificate of Origin (原産地証明書) - ML パッケージ
- Checks (小切手) - ML パッケージ
- Children's Product Certificate (子供向け製品証明書) - ML パッケージ
- CMS 1500 (米国の医療保険請求フォーム) - ML パッケージ
- EU Declaration of Conformity (EU 適合宣言書) - ML パッケージ
- Financial Statements (財務諸表) - ML パッケージ
- FM1003 (米国の統一住宅ローン申請書) - ML パッケージ
- I9 (米国の就労資格証明書) - ML パッケージ
- ID Cards (ID カード) - ML パッケージ
- Invoices (請求書) - ML パッケージ
- InvoicesAustralia (請求書 - オーストラリア) - ML パッケージ
- InvoicesChina (請求書 - 中国) - ML パッケージ
- Invoices Hebrew (請求書 - ヘブライ語) - ML パッケージ
- InvoicesIndia (請求書 - インド) - ML パッケージ
- InvoicesJapan (請求書 - 日本) - ML パッケージ
- Invoices Shipping (船積送り状) - ML パッケージ
- Packing Lists (梱包明細書) - ML パッケージ
- Payslips (給与明細) - ML パッケージ
- Passports (パスポート) - ML パッケージ
- Purchase Orders (発注書) - ML パッケージ
- Receipts (領収書) - ML パッケージ
- RemittanceAdvices (送金通知書) - ML パッケージ
- UB-04 (健康保険請求フォーム) - ML パッケージ
- Utility Bills (公共料金の請求書) - ML パッケージ
- Vehicle Titles (自動車の権利書) - ML パッケージ
- W2 (米国の源泉徴収票) - ML パッケージ
- W9 (米国の納税申告書) - ML パッケージ
- その他のすぐに使える ML パッケージ
- パブリック エンドポイント
- トラフィック制限
- OCR の設定
- パイプライン
- OCR サービス
- サポートされている言語
- ディープ ラーニング
- データおよびセキュリティ
- ライセンスと請求ロジック

Document Understanding クラシック ユーザー ガイド
タクソノミーの概要
タクソノミーとは
タクソノミーとは、 Document UnderstandingTM フレームワークが各手順で考慮するメタデータです。
- タクソノミーは、ドキュメントの種類のコレクションです。
- ドキュメントの種類は、さまざまな業務プロセスで処理する必要のある、ドキュメントの論理的な種類の定義です。ドキュメントの種類の例として、請求書、医療記録、IRS フォーム W-2、契約書などがあります。ドキュメントの種類には通常、名前、グループ、カテゴリ (処理を容易にするため) のほかに、フィールドのコレクションが含まれます。
- フィールドは、特定のドキュメントの種類で検出・取得が期待される情報の 1 つです。
タクソノミーは階層構造であり、Document Understanding フレームワークが全体にわたって使用する情報のスキーマが含まれます。タクソノミーにある (ドキュメントの種類またはフィールドの) エンティティ定義はそれぞれ、一意の ID を持ちます。
ドキュメント分類でどのように役立つか?
受信ファイルをさまざまなドキュメントの種類に分類する場合、タクソノミーには具体的に処理するドキュメントの種類が含まれている必要があります。これにより、均一なデータ スキーマ (タクソノミーの構造) に基づいて Document Understanding プロセスを設定できます。
データ抽出でどのように役立つか?
特定のドキュメントの種類からデータを抽出する場合、タクソノミーには自動データ抽出の対象とするフィールドのリストが含まれます。これにより、信頼できる唯一の情報源であるデータ スキーマ (ドキュメントの種類の構造) に基づいて、さまざまな抽出方法やルールを設定できます。
フィールドの種類と詳細
フィールドには、派生部分が含まれることがあります。これは、ドキュメントで検出された元のテキスト値から取得または編集された書式付きの情報です。
| フィールドの種類 | 複数値の許容 | 目的 | 書式設定用の派生パーツ | その他の情報 |
|---|---|---|---|---|
| Number | はい | 数値 |
| N/A |
| 金額 | はい | 金額と通貨の値 |
| N/A |
| 日付 | はい | 日付 |
| 日付フィールドでは [ 必要な形式 ] を定義できます。これは、MSDN 準拠の日付書式指定文字列 ( dd-MM-yyyy や MM, dd, yyyy など) である必要があります。 この形式は、[データ抽出スコープ] アクティビティが日付を解析して、日、月、年の各構成要素への分解を試みるときに使用されます。 |
| 名前 | はい | 個人の氏名 |
| N/A |
| Address | はい | 住所 |
| N/A |
| Set | はい | 事前定義済みのセットから可能な値のリストを定義 | N/A | [Set] フィールドは、許容されるオプションを値として定義する必要があります。これらの値は、検証ステーションに反映されます。 |
| Boolean | はい | はい/いいえの値 | N/A | [Boolean] フィールドの許容値は、Yes (はい) または No (いいえ) のみです。この値は検証ステーションに反映されます。 |
| 表 | いいえ | 表形式データ | N/A | [Table] フィールドには、列の定義が含まれます。 |
| Table Column | いいえ | 表内の各セルです。 | N/A | [Table] フィールド内の [Table Column] は、コンポーネント リストの通常のフィールドの1つのとして定義されます。 Table 型にすることはできません。 |
| フィールドグループ | はい | 関連するフィールドを一緒に整理します。 | 子フィールドまたはフィールド グループ。 | フィールド グループを使用すると、検証ステーションに階層状のフィールド構造を表示できるため、抽出したデータを論理的に整理できます。グループは、単一値、複数値、またはフィールド、フィールド グループ、およびテーブルで構成される混合にすることができます。子フィールドを持たないフィールド グループは、Action Center に送信されるタクソノミーおよび抽出結果から除外されます。すべての子フィールド値が空であるフィールド グループ インスタンスも、抽出結果から除外されます。 |
例外
既定のレポートは、タクソノミー レベルで 例外 の理由として定義できます。これらの定義済みの理由は、ビジネス ユーザーがドキュメントを例外として報告すると 、検証ステーション に表示されます。
これにより、ビジネス ユーザーは、定義済みの理由 (タクソノミー マネージャーで定義した例外の理由) に基づいてドキュメントを例外としてマークできます。
たとえば、ユーザーが請求書を期待しているのに医療記録を受け取ったり、韓国語のドキュメントを期待しているのにロシア語のドキュメントを受け取ったり、判読可能なドキュメントを期待しているのに非常に低品質のドキュメントを受け取ったりする可能性があります。
定義した理由はドロップダウン リストに表示され、ユーザーはそこから最も適切なオプションを選択できます。選択した理由に基づいて、次に実行する処理パスを決定するように、再開するオートメーションを設定できます。
タクソノミーでキャプチャされるその他の情報
また、タクソノミーは、グループとカテゴリのリストとともに、処理済みのドキュメントと関連付けできる対応言語のコレクションも含みます。たとえば、日本語と英語でドキュメントを処理するには、Supported Languages タグに対応する表示名と言語コードを含める必要があります。例外のケースをサポートするために、Undetermined Language (code und) の追加を推奨します。
タクソノミー拡張メソッド
Serialize()
DocumentTaxonomy オブジェクトで呼び出されます。Serialize() メソッドは、オブジェクトの JSON 表現を返します。これを格納しておけば、後で取得して使用できます。
Deserialize(String)
DocumentTaxonomy.Deserialize(jsonString) スタティック拡張は、DocumentTaxonomy オブジェクトを返します。このオブジェクトは、パラメーターとして渡された JSON エンコードデータでハイドレートされています。
GetFields(String)
DocumentTaxonomy オブジェクトで呼び出されます。DocumentTypeId 文字列で呼び出された GetFields() メソッドは、そのドキュメントの種類内で定義されたフィールドのリストを返します。
プロジェクトのタクソノミーを作成および編集する方法
UiPath.IntelligentOCR.Activities パッケージを UiPath® Studio のプロジェクトにインストールすると、Studio の [デザイン] タブのメイン リボンに [タクソノミー マネージャー] ボタンが表示されます。タクソノミー マネージャー ウィザードを使用して、プロジェクトのタクソノミーを編集します。
タクソノミーは UiPath Studio プロジェクト内のファイル、DocumentProcessing フォルダー、および taxonomy.json ファイルに格納されます。
このファイルは、タクソノミー マネージャー ウィザードを初めて開いたときに自動的に作成されます。タクソノミー マネージャーでこのファイルの正確な場所を確認するには、
ボタン上でホバーします。または、タクソノミー マネージャーを開くたびに、右上隅にポップアップ メッセージが表示され、このファイルの場所が示されます。プロジェクトが Studio からパブリッシュされると、タクソノミーもプロジェクトの成果物としてパブリッシュされます。
taxonomy.json ファイルは各プロジェクトに固有のものですが、手動でコピーすれば新しいプロジェクトにも再利用できます。このためには、新しいプロジェクトを作成してから、そのプロジェクト フォルダーに移動し、選択したタクソノミーを含むファイルを (DocumentProcessing フォルダー内の) 適切な場所にコピーします。
データの整合性を確保するために、常にタクソノミー マネージャーを使用してタクソノミーを編集することをお勧めします。
プロジェクト内でタクソノミーを使用する方法
Document Understanding のタクソノミーは、Document Understanding フレームワーク全体でオブジェクトとして必要になります。
オブジェクトを読み込む最も簡単で便利な方法は、[ タクソノミーを読み込み] アクティビティを使用する方法です。タクソノミー オブジェクトを読み込んだら、これを必要とする以降のすべてのフレームワークのコンポーネントで使用できます。
カスタム ユース ケース
- タクソノミーを別の場所に保存する場合でも、[代入] アクティビティを使用して、次のように、プロジェクトに読み込むことができます (たとえば、タクソノミー ファイルの文字列コンテンツを
myTaxonomyContentString変数で取得した場合)。
myTaxonomy = DocumentTaxonomy.Deserialize(myTaxonomyContentString)
- ユース ケースで必要な場合、タクソノミーはたとえ実行時でも必要に応じて編集できる POCO (plain old class object) であることに留意してください。