Document Understanding - タクソノミーの概要

document-understanding

2021.10

false

Document Understanding ガイド

重要 :

このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

タクソノミーの概要

タクソノミーとは

タクソノミーとは、Document Understanding フレームワークが各手順で考慮するメタデータです。

タクソノミーは、ドキュメントの種類のコレクションです。

ドキュメントの種類は、さまざまな業務プロセスで処理する必要のある、ドキュメントの論理的な種類の定義です。ドキュメントの種類の例として、請求書、医療記録、IRS フォーム W-2、契約書などがあります。ドキュメントの種類には通常、名前、グループ、カテゴリ (処理を容易にするため) のほかに、フィールドのコレクションが含まれます。
フィールドは、特定のドキュメントの種類で検出・取得が期待される情報の 1 つです。

上記のように、タクソノミーは階層構造であり、Document Understanding フレームワークが全体にわたって使用する情報のスキーマが含まれます。タクソノミーにある (ドキュメントの種類またはフィールドの) エンティティ定義はそれぞれ、一意の ID を持ちます。

ドキュメント分類でどのように役立つか?

受信ファイルをさまざまなドキュメントの種類に分類する場合、タクソノミーには具体的に処理するドキュメントの種類が含まれている必要があります。これにより、均一なデータスキーマ (タクソノミーの構造) に基づいて Document Understanding プロセスを設定できます。

データ抽出でどのように役立つか?

特定のドキュメントの種類からデータを抽出する場合、タクソノミーには自動データ抽出の対象とするフィールドのリストが含まれます。これにより、信頼できる唯一の情報源であるデータスキーマ (ドキュメントの種類の構造) に基づいて、さまざまな抽出方法やルールを設定できます。

フィールドの種類と詳細

フィールドには、派生部分が含まれることがあります。これは、ドキュメントで検出された元のテキスト値から取得または編集された書式付きの情報です。

フィールドの種類	複数値の許容	目的	書式設定用の派生パーツ	その他の情報
テキスト	はい	テキストによる情報	N/A	N/A
Number	はい	数値	値 (Value)	N/A
日付	はい	日付	Day (日) Month (月) Year (年)	日付フィールドでは [必要な形式] を定義できます。これは、MSDN 準拠の日付書式指定文字列 (`dd-MM-yyyy` や `MM, dd, yyyy` など) である必要があります。この形式は、[データ抽出スコープ] アクティビティが日付を解析して、日、月、年の各構成要素への分解を試みるときに使用されます。
名前	はい	個人の氏名	名前 Middle Name (ミドルネーム) 姓	N/A
Address	はい	住所	Address Line 1 (住所3) Address Line 2 (住所3) Address Line 3 (住所3) 市町村 State / County / Province (州/都道府県) Country (国) Zip Postal Code (郵便番号)	N/A
Set	はい	定義済みセットからストリクトにレポートされた情報	N/A	[Set] フィールドは、許容されるオプションを値として定義する必要があります。これらの値は、検証ステーションに反映されます。
Boolean	はい	はい/いいえの値	N/A	[Boolean] フィールドの許容値は、Yes (はい) または No (いいえ) のみです。この値は検証ステーションに反映されます。
表	いいえ	表形式データ	N/A	[Table] フィールドには、列の定義が含まれます。
Table Column	いいえ	表内の各セルです。	N/A	[Table] フィールド内の [Table Column] は、コンポーネントリストの通常のフィールドの1つのとして定義されます。 Table 型にすることはできません。

タクソノミーでキャプチャされるその他の情報

また、タクソノミーは、グループとカテゴリのリストとともに、処理済みのドキュメントと関連付けできる対応言語のコレクションも含みます。たとえば、日本語と英語でドキュメントを処理するには、Supported Languages タグに対応する表示名と言語コードを含める必要があります。例外のケースをサポートするために、Undetermined Language (code und) の追加を推奨します。

タクソノミー拡張メソッド

Serialize()

DocumentTaxonomy オブジェクトで呼び出されます。Serialize() メソッドは、オブジェクトの JSON 表現を返します。これを格納しておけば、後で取得して使用できます。

Deserialize(String)

DocumentTaxonomy.Deserialize(jsonString) スタティック拡張は、DocumentTaxonomy オブジェクトを返します。このオブジェクトは、パラメーターとして渡された JSON エンコードデータでハイドレートされています。

GetFields(String)

DocumentTaxonomy オブジェクトで呼び出されます。DocumentTypeId 文字列で呼び出された GetFields() メソッドは、そのドキュメントの種類内で定義されたフィールドのリストを返します。

プロジェクトのタクソノミーを作成および編集する方法

UiPath.IntelligentOCR.Activities パッケージを UiPath Studio のプロジェクトにインストールすると、Studio の [デザイン] タブのメインリボンに [タクソノミーマネージャー] ボタンが表示されます。タクソノミーマネージャー ウィザードを使用して、プロジェクトのタクソノミーを編集します。

タクソノミーは UiPath Studio プロジェクト内のファイル、DocumentProcessing フォルダー、および taxonomy.json ファイルに格納されます。

このファイルは、タクソノミーマネージャー ウィザードを初めて開いたときに自動的に作成されます。タクソノミーマネージャーでこのファイルの正確な場所を確認するには、ボタン上でホバーします。または、タクソノミーマネージャーを開くたびに、右上隅にポップアップメッセージが表示され、このファイルの場所が示されます。プロジェクトが Studio からパブリッシュされると、タクソノミーもプロジェクトの成果物としてパブリッシュされます。

taxonomy.json ファイルは各プロジェクトに固有のものですが、手動でコピーすれば新しいプロジェクトにも再利用できます。このためには、新しいプロジェクトを作成してから、そのプロジェクトフォルダーに移動し、選択したタクソノミーを含むファイルを (DocumentProcessing フォルダー内の) 適切な場所にコピーします。

重要: データの整合性を確保するために、常にタクソノミーマネージャーを使用してタクソノミーを編集することをお勧めします。

プロジェクト内でタクソノミーを使用する方法

Document Understanding のタクソノミーは、Document Understanding フレームワーク全体でオブジェクトとして必要になります。

オブジェクトを読み込む最も簡単で便利な方法は、[タクソノミーを読み込み] アクティビティを使用する方法です。タクソノミーオブジェクトを読み込んだら、これを必要とする以降のすべてのフレームワークのコンポーネントで使用できます。

カスタムユースケース

タクソノミーを別の場所に保存する場合でも、[代入] アクティビティを使用してプロジェクトに読み込むことができます。たとえば、タクソノミーファイルの文字列コンテンツを myTaxonomyContentString 変数で取得して、myTaxonomy = DocumentTaxonomy.Deserialize(myTaxonomyContentString) とします。
ユースケースで必要な場合、タクソノミーはたとえ実行時でも必要に応じて編集できる POCO (plain old class object) であることに留意してください。

タクソノミーとは
ドキュメント分類でどのように役立つか?
データ抽出でどのように役立つか?
フィールドの種類と詳細
タクソノミーでキャプチャされるその他の情報
タクソノミー拡張メソッド
Serialize()
Deserialize(String)
GetFields(String)
プロジェクトのタクソノミーを作成および編集する方法
プロジェクト内でタクソノミーを使用する方法
カスタムユースケース

このページは役に立ちましたか?

前へタクソノミー

次へタクソノミーマネージャー