Document Understanding - タクソノミーの概要

document-understanding

latest

false

Document Understanding クラシックユーザーガイド

重要 :

このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

タクソノミーの概要

タクソノミーとは

タクソノミーとは、 Document Understanding^TM フレームワークが各手順で考慮するメタデータです。

タクソノミーは、ドキュメントの種類のコレクションです。
ドキュメントの種類は、さまざまな業務プロセスで処理する必要のある、ドキュメントの論理的な種類の定義です。ドキュメントの種類の例として、請求書、医療記録、IRS フォーム W-2、契約書などがあります。ドキュメントの種類には通常、名前、グループ、カテゴリ (処理を容易にするため) のほかに、フィールドのコレクションが含まれます。
フィールドは、特定のドキュメントの種類で検出・取得が期待される情報の 1 つです。

タクソノミーは階層構造であり、Document Understanding フレームワークが全体にわたって使用する情報のスキーマが含まれます。タクソノミーにある (ドキュメントの種類またはフィールドの) エンティティ定義はそれぞれ、一意の ID を持ちます。

ドキュメント分類でどのように役立つか?

受信ファイルをさまざまなドキュメントの種類に分類する場合、タクソノミーには具体的に処理するドキュメントの種類が含まれている必要があります。これにより、均一なデータスキーマ (タクソノミーの構造) に基づいて Document Understanding プロセスを設定できます。

データ抽出でどのように役立つか?

特定のドキュメントの種類からデータを抽出する場合、タクソノミーには自動データ抽出の対象とするフィールドのリストが含まれます。これにより、信頼できる唯一の情報源であるデータスキーマ (ドキュメントの種類の構造) に基づいて、さまざまな抽出方法やルールを設定できます。

フィールドの種類と詳細

フィールドには、派生部分が含まれることがあります。これは、ドキュメントで検出された元のテキスト値から取得または編集された書式付きの情報です。

フィールドの種類	複数値の許容	目的	書式設定用の派生パーツ	その他の情報
Number	はい	数値	値 (小数点以下 8 桁まで)	N/A
金額	はい	金額と通貨の値	値 (Value) 通貨	N/A
日付	はい	日付	Day (日) Month (月) Year (年)	日付フィールドでは [ 必要な形式 ] を定義できます。これは、MSDN 準拠の日付書式指定文字列 ( `dd-MM-yyyy` や `MM, dd, yyyy` など) である必要があります。この形式は、[データ抽出スコープ] アクティビティが日付を解析して、日、月、年の各構成要素への分解を試みるときに使用されます。
名前	はい	個人の氏名	名前 Middle Name (ミドルネーム) 姓	N/A
Address	はい	住所	Address Line 1 (住所3) Address Line 2 (住所3) Address Line 3 (住所3) 市町村 State / County / Province (州/都道府県) Country (国) Zip Postal Code (郵便番号)	N/A
Set	はい	事前定義済みのセットから可能な値のリストを定義	N/A	[Set] フィールドは、許容されるオプションを値として定義する必要があります。これらの値は、検証ステーションに反映されます。
Boolean	はい	はい/いいえの値	N/A	[Boolean] フィールドの許容値は、Yes (はい) または No (いいえ) のみです。この値は検証ステーションに反映されます。
表	いいえ	表形式データ	N/A	[Table] フィールドには、列の定義が含まれます。
Table Column	いいえ	表内の各セルです。	N/A	[Table] フィールド内の [Table Column] は、コンポーネントリストの通常のフィールドの1つのとして定義されます。 Table 型にすることはできません。
フィールドグループ	はい	関連するフィールドを一緒に整理します。	子フィールドまたはフィールドグループ。	フィールドグループを使用すると、検証ステーションに階層状のフィールド構造を表示できるため、抽出したデータを論理的に整理できます。グループは、単一値、複数値、またはフィールド、フィールドグループ、およびテーブルで構成される混合にすることができます。子フィールドを持たないフィールドグループは、Action Center に送信されるタクソノミーおよび抽出結果から除外されます。すべての子フィールド値が空であるフィールドグループインスタンスも、抽出結果から除外されます。

例外

既定のレポートは、タクソノミーレベルで例外の理由として定義できます。これらの定義済みの理由は、ビジネスユーザーがドキュメントを例外として報告すると 、検証ステーション に表示されます。

これにより、ビジネスユーザーは、定義済みの理由 (タクソノミーマネージャーで定義した例外の理由) に基づいてドキュメントを例外としてマークできます。

たとえば、ユーザーが請求書を期待しているのに医療記録を受け取ったり、韓国語のドキュメントを期待しているのにロシア語のドキュメントを受け取ったり、判読可能なドキュメントを期待しているのに非常に低品質のドキュメントを受け取ったりする可能性があります。

定義した理由はドロップダウンリストに表示され、ユーザーはそこから最も適切なオプションを選択できます。選択した理由に基づいて、次に実行する処理パスを決定するように、再開するオートメーションを設定できます。

タクソノミーでキャプチャされるその他の情報

また、タクソノミーは、グループとカテゴリのリストとともに、処理済みのドキュメントと関連付けできる対応言語のコレクションも含みます。たとえば、日本語と英語でドキュメントを処理するには、Supported Languages タグに対応する表示名と言語コードを含める必要があります。例外のケースをサポートするために、Undetermined Language (code und) の追加を推奨します。

タクソノミー拡張メソッド

Serialize()

DocumentTaxonomy オブジェクトで呼び出されます。Serialize() メソッドは、オブジェクトの JSON 表現を返します。これを格納しておけば、後で取得して使用できます。

Deserialize(String)

DocumentTaxonomy.Deserialize(jsonString) スタティック拡張は、DocumentTaxonomy オブジェクトを返します。このオブジェクトは、パラメーターとして渡された JSON エンコードデータでハイドレートされています。

GetFields(String)

DocumentTaxonomy オブジェクトで呼び出されます。DocumentTypeId 文字列で呼び出された GetFields() メソッドは、そのドキュメントの種類内で定義されたフィールドのリストを返します。

プロジェクトのタクソノミーを作成および編集する方法

UiPath.IntelligentOCR.Activities パッケージを UiPath® Studio のプロジェクトにインストールすると、Studio の [デザイン] タブのメインリボンに [タクソノミーマネージャー] ボタンが表示されます。タクソノミーマネージャー ウィザードを使用して、プロジェクトのタクソノミーを編集します。

タクソノミーは UiPath Studio プロジェクト内のファイル、DocumentProcessing フォルダー、および taxonomy.json ファイルに格納されます。

このファイルは、タクソノミーマネージャー ウィザードを初めて開いたときに自動的に作成されます。タクソノミーマネージャーでこのファイルの正確な場所を確認するには、ボタン上でホバーします。または、タクソノミーマネージャーを開くたびに、右上隅にポップアップメッセージが表示され、このファイルの場所が示されます。プロジェクトが Studio からパブリッシュされると、タクソノミーもプロジェクトの成果物としてパブリッシュされます。

taxonomy.json ファイルは各プロジェクトに固有のものですが、手動でコピーすれば新しいプロジェクトにも再利用できます。このためには、新しいプロジェクトを作成してから、そのプロジェクトフォルダーに移動し、選択したタクソノミーを含むファイルを (DocumentProcessing フォルダー内の) 適切な場所にコピーします。

重要:

データの整合性を確保するために、常にタクソノミーマネージャーを使用してタクソノミーを編集することをお勧めします。

プロジェクト内でタクソノミーを使用する方法

Document Understanding のタクソノミーは、Document Understanding フレームワーク全体でオブジェクトとして必要になります。

オブジェクトを読み込む最も簡単で便利な方法は、[ タクソノミーを読み込み] アクティビティを使用する方法です。タクソノミーオブジェクトを読み込んだら、これを必要とする以降のすべてのフレームワークのコンポーネントで使用できます。

カスタムユースケース

タクソノミーを別の場所に保存する場合でも、[代入] アクティビティを使用して、次のように、プロジェクトに読み込むことができます (たとえば、タクソノミーファイルの文字列コンテンツを myTaxonomyContentString 変数で取得した場合)。

myTaxonomy = DocumentTaxonomy.Deserialize(myTaxonomyContentString)

ユースケースで必要な場合、タクソノミーはたとえ実行時でも必要に応じて編集できる POCO (plain old class object) であることに留意してください。

このページは役に立ちましたか?

前へタクソノミー

次へタクソノミーマネージャー

タクソノミーとは​

ドキュメント分類でどのように役立つか?​

データ抽出でどのように役立つか?​

フィールドの種類と詳細​

例外​

タクソノミーでキャプチャされるその他の情報​

タクソノミー拡張メソッド​

Serialize()​

Deserialize(String)​

GetFields(String)​

プロジェクトのタクソノミーを作成および編集する方法​

プロジェクト内でタクソノミーを使用する方法​

カスタム ユース ケース​