- 基本情報
- フレームワーク コンポーネント
- タクソノミーの概要
- タクソノミー マネージャー
- タクソノミー関連のアクティビティ
- ML パッケージ
- パイプライン
- データ マネージャー (Data Manager)
- OCR サービス
- Automation Suite にデプロイされた Document Understanding
- AI Center スタンドアロンにデプロイされた Document Understanding
- ディープ ラーニング
- ライセンス
- 参照
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Document Understanding ガイド
タクソノミーの概要
タクソノミーとは、Document Understanding フレームワークが各手順で考慮するメタデータです。
タクソノミーは、ドキュメントの種類のコレクションです。
- ドキュメントの種類は、さまざまな業務プロセスで処理する必要のある、ドキュメントの論理的な種類の定義です。ドキュメントの種類の例として、請求書、医療記録、IRS フォーム W-2、契約書などがあります。ドキュメントの種類には通常、名前、グループ、カテゴリ (処理を容易にするため) のほかに、フィールドのコレクションが含まれます。
- フィールドは、特定のドキュメントの種類で検出・取得が期待される情報の 1 つです。
上記のように、タクソノミーは階層構造であり、Document Understanding フレームワークが全体にわたって使用する情報のスキーマが含まれます。タクソノミーにある (ドキュメントの種類またはフィールドの) エンティティ定義はそれぞれ、一意の ID を持ちます。
受信ファイルをさまざまなドキュメントの種類に分類する場合、タクソノミーには具体的に処理するドキュメントの種類が含まれている必要があります。これにより、均一なデータ スキーマ (タクソノミーの構造) に基づいて Document Understanding プロセスを設定できます。
特定のドキュメントの種類からデータを抽出する場合、タクソノミーには自動データ抽出の対象とするフィールドのリストが含まれます。これにより、信頼できる唯一の情報源であるデータ スキーマ (ドキュメントの種類の構造) に基づいて、さまざまな抽出方法やルールを設定できます。
フィールドには、派生部分が含まれることがあります。これは、ドキュメントで検出された元のテキスト値から取得または編集された書式付きの情報です。
フィールドの種類 |
複数値の許容 |
目的 |
書式設定用の派生パーツ |
その他の情報 |
---|---|---|---|---|
テキスト |
はい |
テキストによる情報 |
N/A |
N/A |
Number |
はい |
数値 |
|
N/A |
日付 |
はい |
日付 |
|
日付フィールドでは [必要な形式] を定義できます。これは、MSDN 準拠の日付書式指定文字列 (
dd-MM-yyyy や MM, dd, yyyy など) である必要があります。
この形式は、[データ抽出スコープ] アクティビティが日付を解析して、日、月、年の各構成要素への分解を試みるときに使用されます。 |
名前 |
はい |
個人の氏名 |
|
N/A |
Address |
はい |
住所 |
|
N/A |
Set |
はい |
定義済みセットからストリクトにレポートされた情報 |
N/A |
[Set] フィールドは、許容されるオプションを値として定義する必要があります。これらの値は、検証ステーションに反映されます。 |
Boolean |
はい |
はい/いいえの値 |
N/A |
[Boolean] フィールドの許容値は、Yes (はい) または No (いいえ) のみです。この値は検証ステーションに反映されます。 |
表 |
いいえ |
表形式データ |
N/A |
[Table] フィールドには、列の定義が含まれます。 |
Table Column |
いいえ |
表内の各セルです。 |
N/A |
[Table] フィールド内の [Table Column] は、コンポーネント リストの通常のフィールドの1つのとして定義されます。 Table 型にすることはできません。 |
DocumentTaxonomy
オブジェクトで呼び出されます。Serialize()
メソッドは、オブジェクトの JSON
表現を返します。これを格納しておけば、後で取得して使用できます。
DocumentTaxonomy.Deserialize(jsonString)
スタティック拡張は、DocumentTaxonomy
オブジェクトを返します。このオブジェクトは、パラメーターとして渡された JSON エンコードデータでハイドレートされています。
UiPath.IntelligentOCR.Activities パッケージを UiPath Studio のプロジェクトにインストールすると、Studio の [デザイン] タブのメイン リボンに [タクソノミー マネージャー] ボタンが表示されます。タクソノミー マネージャー ウィザードを使用して、プロジェクトのタクソノミーを編集します。
taxonomy.json
ファイルに格納されます。
このファイルは、タクソノミー マネージャー ウィザードを初めて開いたときに自動的に作成されます。タクソノミー マネージャーでこのファイルの正確な場所を確認するには、 ボタン上でホバーします。または、タクソノミー マネージャーを開くたびに、右上隅にポップアップ メッセージが表示され、このファイルの場所が示されます。プロジェクトが Studio からパブリッシュされると、タクソノミーもプロジェクトの成果物としてパブリッシュされます。
taxonomy.json
ファイルは各プロジェクトに固有のものですが、手動でコピーすれば新しいプロジェクトにも再利用できます。このためには、新しいプロジェクトを作成してから、そのプロジェクト フォルダーに移動し、選択したタクソノミーを含むファイルを (DocumentProcessing フォルダー内の) 適切な場所にコピーします。
Document Understanding のタクソノミーは、Document Understanding フレームワーク全体でオブジェクトとして必要になります。
オブジェクトを読み込む最も簡単で便利な方法は、[タクソノミーを読み込み] アクティビティを使用する方法です。タクソノミー オブジェクトを読み込んだら、これを必要とする以降のすべてのフレームワークのコンポーネントで使用できます。