Document Understanding
2022.10
バナーの背景画像
Document Understanding ガイド
最終更新日 2024年4月19日

タクソノミーの概要

タクソノミーとは

タクソノミーとは、Document Understanding フレームワークが各手順で考慮するメタデータです。

  • タクソノミーは、ドキュメントの種類のコレクションです。
    • ドキュメントの種類は、さまざまな業務プロセスで処理する必要のある、ドキュメントの論理的な種類の定義です。ドキュメントの種類の例として、請求書、医療記録、IRS フォーム W-2、契約書などがあります。ドキュメントの種類には通常、名前、グループ、カテゴリ (処理を容易にするため) のほかに、フィールドのコレクションが含まれます。
      • フィールドは、特定のドキュメントの種類で検出・取得が期待される情報の 1 つです。

上記のように、タクソノミーは階層構造であり、Document Understanding フレームワークが全体にわたって使用する情報のスキーマが含まれます。タクソノミーにある (ドキュメントの種類またはフィールドの) エンティティ定義はそれぞれ、一意の ID を持ちます。

ドキュメント分類でどのように役立つか?

受信ファイルをさまざまなドキュメントの種類に分類する場合、タクソノミーには具体的に処理するドキュメントの種類が含まれている必要があります。これにより、均一なデータ スキーマ (タクソノミーの構造) に基づいて Document Understanding プロセスを設定できます。

データ抽出でどのように役立つか?

特定のドキュメントの種類からデータを抽出する場合、タクソノミーには自動データ抽出の対象とするフィールドのリストが含まれます。これにより、信頼できる唯一の情報源であるデータ スキーマ (ドキュメントの種類の構造) に基づいて、さまざまな抽出方法やルールを設定できます。

フィールドの種類と詳細

フィールドには、派生部分が含まれることがあります。これは、ドキュメントで検出された元のテキスト値から取得または編集された書式付きの情報です。

フィールドの種類

複数値の許容

目的

書式設定用の派生パーツ

その他の情報

テキスト

はい

テキストによる情報

N/A

N/A

Number

はい

数値

  • 値 (Value)

N/A

日付

はい

日付

  • Day (日)
  • Month (月)
  • Year (年)
日付フィールドでは [必要な形式] を定義できます。これは、MSDN 準拠の日付書式指定文字列 (dd-MM-yyyyMM, dd, yyyy など) である必要があります。

この形式は、[データ抽出スコープ] アクティビティが日付を解析して、日、月、年の各構成要素への分解を試みるときに使用されます。

名前

はい

個人の氏名

  • 名前
  • Middle Name (ミドル ネーム)

N/A

アドレス

はい

住所

  • Address Line 1 (住所3)
  • Address Line 2 (住所3)
  • Address Line 3 (住所3)
  • 市町村
  • State / County / Province (州/都道府県)
  • Country (国)
  • Zip Postal Code (郵便番号)

N/A

Set

はい

事前定義済みのセットから可能な値のリストを定義

N/A

[Set] フィールドは、許容されるオプションを値として定義する必要があります。これらの値は、検証ステーションに反映されます。

Boolean

はい

はい/いいえの値

N/A

[Boolean] フィールドの許容値は、Yes (はい) または No (いいえ) のみです。この値は検証ステーションに反映されます。

いいえ

表形式データ

N/A

[Table] フィールドには、列の定義が含まれます。

Table Column

いいえ

表内の各セルです。

N/A

[Table] フィールド内の [Table Column] は、コンポーネント リストの通常のフィールドの1つのとして定義されます。

Table 型にすることはできません。

タクソノミーでキャプチャされるその他の情報

また、タクソノミーは、グループとカテゴリのリストとともに、処理済みのドキュメントと関連付けできる対応言語のコレクションも含みます。たとえば、日本語と英語でドキュメントを処理するには、Supported Languages タグに対応する表示名と言語コードを含める必要があります。例外のケースをサポートするために、Undetermined Language (code und) の追加を推奨します。

タクソノミー拡張メソッド

Serialize()

DocumentTaxonomy オブジェクトで呼び出されます。Serialize() メソッドは、オブジェクトの JSON 表現を返します。これを格納しておけば、後で取得して使用できます。

Deserialize(String)

DocumentTaxonomy.Deserialize(jsonString) スタティック拡張は、DocumentTaxonomy オブジェクトを返します。このオブジェクトは、パラメーターとして渡された JSON エンコードデータでハイドレートされています。

GetFields(String)

DocumentTaxonomy オブジェクトで呼び出されます。DocumentTypeId 文字列で呼び出された GetFields() メソッドは、そのドキュメントの種類内で定義されたフィールドのリストを返します。

プロジェクトのタクソノミーを作成および編集する方法

UiPath.IntelligentOCR.Activities パッケージを UiPath Studio のプロジェクトにインストールすると、Studio の [デザイン] タブのメイン リボンに [タクソノミー マネージャー] ボタンが表示されます。タクソノミー マネージャー ウィザードを使用して、プロジェクトのタクソノミーを編集します。

タクソノミーは UiPath Studio プロジェクト内のファイル、DocumentProcessing フォルダー、および taxonomy.json ファイルに格納されます。

このファイルは、タクソノミー マネージャー ウィザードを初めて開いたときに自動的に作成されます。タクソノミー マネージャーでこのファイルの正確な場所を確認するには、 ボタン上でホバーします。または、タクソノミー マネージャーを開くたびに、右上隅にポップアップ メッセージが表示され、このファイルの場所が示されます。プロジェクトが Studio からパブリッシュされると、タクソノミーもプロジェクトの成果物としてパブリッシュされます。

taxonomy.json ファイルは各プロジェクトに固有のものですが、手動でコピーすれば新しいプロジェクトにも再利用できます。このためには、新しいプロジェクトを作成してから、そのプロジェクト フォルダーに移動し、選択したタクソノミーを含むファイルを (DocumentProcessing フォルダー内の) 適切な場所にコピーします。
重要: データの整合性を確保するために、常にタクソノミー マネージャーを使用してタクソノミーを編集することをお勧めします。

プロジェクト内でタクソノミーを使用する方法

Document Understanding のタクソノミーは、Document Understanding フレームワーク全体でオブジェクトとして必要になります。

オブジェクトを読み込む最も簡単で便利な方法は、[タクソノミーを読み込み] アクティビティを使用する方法です。タクソノミー オブジェクトを読み込んだら、これを必要とする以降のすべてのフレームワークのコンポーネントで使用できます。

カスタム ユース ケース

  • タクソノミーを別の場所に保存する場合でも、[代入] アクティビティを使用して、次のように、プロジェクトに読み込むことができます (たとえば、タクソノミー ファイルの文字列コンテンツを myTaxonomyContentString 変数で取得した場合)。

    myTaxonomy = DocumentTaxonomy.Deserialize(myTaxonomyContentString)

  • ユース ケースで必要な場合、タクソノミーはたとえ実行時でも必要に応じて編集できる POCO (plain old class object) であることに留意してください。

Was this page helpful?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
UiPath ロゴ (白)
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.