- 概要
- 基本情報
- アクティビティ
- Insights のダッシュボード
- Document Understanding Process
- クイック スタート チュートリアル
- フレームワーク コンポーネント
- ML パッケージ
- 概要
- Document Understanding - ML パッケージ
- DocumentClassifier (ドキュメント分類) - ML パッケージ
- OCR 機能を持つ ML パッケージ
- 1040 (米国の個人所得税申告書) - ML パッケージ
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ML パッケージ
- 1040 Schedule D (米国の個人所得税申告書のスケジュール D) - ML パッケージ
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ML パッケージ
- 1040x (米国の個人所得税修正申告書) - ML パッケージ
- 3949a - ML パッケージ
- 4506T (米国の納税申告証明依頼書) - ML パッケージ
- 709 (米国の贈与税申告書) - ML パッケージ
- 941x (米国の雇用主による四半期連邦税修正申告書) - ML パッケージ
- 9465 (米国の分割納付申請書) - ML パッケージ
- ACORD131 (アンブレラ/エクセス保険) - ML パッケージ
- ACORD140 (商業保険申込書の財物補償条項) - ML パッケージ
- ACORD25 (賠償責任保険証明書) - ML パッケージ
- Bank Statements (銀行預金残高証明書) - ML パッケージ
- BillsOfLading (船荷証券) - ML パッケージ
- Certificate of Incorporation (会社存在証明書) - ML パッケージ
- Certificate of Origin (原産地証明書) - ML パッケージ
- Checks (小切手) - ML パッケージ
- Children's Product Certificate (子供向け製品証明書) - ML パッケージ
- CMS 1500 (米国の医療保険請求フォーム) - ML パッケージ
- EU Declaration of Conformity (EU 適合宣言書) - ML パッケージ
- Financial Statements (財務諸表) - ML パッケージ
- FM1003 (米国の統一住宅ローン申請書) - ML パッケージ
- I9 (米国の就労資格証明書) - ML パッケージ
- ID Cards (ID カード) - ML パッケージ
- Invoices (請求書) - ML パッケージ
- InvoicesAustralia (請求書 - オーストラリア) - ML パッケージ
- InvoicesChina (請求書 - 中国) - ML パッケージ
- Invoices Hebrew (請求書 - ヘブライ語) - ML パッケージ
- InvoicesIndia (請求書 - インド) - ML パッケージ
- InvoicesJapan (請求書 - 日本) - ML パッケージ
- Invoices Shipping (船積送り状) - ML パッケージ
- Packing Lists (梱包明細書) - ML パッケージ
- Payslips (給与明細) - ML パッケージ
- Passports (パスポート) - ML パッケージ
- Purchase Orders (発注書) - ML パッケージ
- Receipts (領収書) - ML パッケージ
- RemittanceAdvices (送金通知書) - ML パッケージ
- UB-04 (健康保険請求フォーム) - ML パッケージ
- Utility Bills (公共料金の請求書) - ML パッケージ
- Vehicle Titles (自動車の権利書) - ML パッケージ
- W2 (米国の源泉徴収票) - ML パッケージ
- W9 (米国の納税申告書) - ML パッケージ
- その他のすぐに使える ML パッケージ
- パブリック エンドポイント
- トラフィック制限
- OCR の設定
- パイプライン
- OCR サービス
- サポートされている言語
- ディープ ラーニング
- ライセンス
Document Understanding ガイド
タクソノミーの概要
タクソノミーとは、Document UnderstandingTM フレームワークが各手順で考慮するメタデータです。
- タクソノミーは、ドキュメントの種類のコレクションです。
- ドキュメントの種類は、さまざまな業務プロセスで処理する必要のある、ドキュメントの論理的な種類の定義です。ドキュメントの種類の例として、請求書、医療記録、IRS フォーム W-2、契約書などがあります。ドキュメントの種類には通常、名前、グループ、カテゴリ (処理を容易にするため) のほかに、フィールドのコレクションが含まれます。
- フィールドは、特定のドキュメントの種類で検出・取得が期待される情報の 1 つです。
上記のように、タクソノミーは階層構造であり、Document Understanding フレームワークが全体にわたって使用する情報のスキーマが含まれます。タクソノミーにある (ドキュメントの種類またはフィールドの) エンティティ定義はそれぞれ、一意の ID を持ちます。
受信ファイルをさまざまなドキュメントの種類に分類する場合、タクソノミーには具体的に処理するドキュメントの種類が含まれている必要があります。これにより、均一なデータ スキーマ (タクソノミーの構造) に基づいて Document Understanding プロセスを設定できます。
特定のドキュメントの種類からデータを抽出する場合、タクソノミーには自動データ抽出の対象とするフィールドのリストが含まれます。これにより、信頼できる唯一の情報源であるデータ スキーマ (ドキュメントの種類の構造) に基づいて、さまざまな抽出方法やルールを設定できます。
フィールドには、派生部分が含まれることがあります。これは、ドキュメントで検出された元のテキスト値から取得または編集された書式付きの情報です。
フィールドの種類 |
複数値の許容 |
目的 |
書式設定用の派生パーツ |
その他の情報 |
---|---|---|---|---|
テキスト |
はい |
テキストによる情報 |
N/A |
N/A |
Number |
はい |
数値 |
|
N/A |
日付 |
はい |
日付 |
|
日付フィールドでは [必要な形式] を定義できます。これは、MSDN 準拠の日付書式指定文字列 (
dd-MM-yyyy や MM, dd, yyyy など) である必要があります。
この形式は、[データ抽出スコープ] アクティビティが日付を解析して、日、月、年の各構成要素への分解を試みるときに使用されます。 |
名前 |
はい |
個人の氏名 |
|
N/A |
Address |
はい |
住所 |
|
N/A |
Set |
はい |
事前定義済みのセットから可能な値のリストを定義 |
N/A |
[Set] フィールドは、許容されるオプションを値として定義する必要があります。これらの値は、検証ステーションに反映されます。 |
Boolean |
はい |
はい/いいえの値 |
N/A |
[Boolean] フィールドの許容値は、Yes (はい) または No (いいえ) のみです。この値は検証ステーションに反映されます。 |
表 |
いいえ |
表形式データ |
N/A |
[Table] フィールドには、列の定義が含まれます。 |
Table Column |
いいえ |
表内の各セルです。 |
N/A |
[Table] フィールド内の [Table Column] は、コンポーネント リストの通常のフィールドの1つのとして定義されます。 Table 型にすることはできません。 |
DocumentTaxonomy
オブジェクトで呼び出されます。Serialize()
メソッドは、オブジェクトの JSON
表現を返します。これを格納しておけば、後で取得して使用できます。
DocumentTaxonomy.Deserialize(jsonString)
スタティック拡張は、DocumentTaxonomy
オブジェクトを返します。このオブジェクトは、パラメーターとして渡された JSON エンコードデータでハイドレートされています。
UiPath.IntelligentOCR.Activities パッケージを UiPath® Studio のプロジェクトにインストールすると、Studio の [デザイン] タブのメイン リボンに [タクソノミー マネージャー] ボタンが表示されます。タクソノミー マネージャー ウィザードを使用して、プロジェクトのタクソノミーを編集します。
taxonomy.json
ファイルに格納されます。
このファイルは、タクソノミー マネージャー ウィザードを初めて開いたときに自動的に作成されます。タクソノミー マネージャーでこのファイルの正確な場所を確認するには、 ボタン上でホバーします。または、タクソノミー マネージャーを開くたびに、右上隅にポップアップ メッセージが表示され、このファイルの場所が示されます。プロジェクトが Studio からパブリッシュされると、タクソノミーもプロジェクトの成果物としてパブリッシュされます。
taxonomy.json
ファイルは各プロジェクトに固有のものですが、手動でコピーすれば新しいプロジェクトにも再利用できます。このためには、新しいプロジェクトを作成してから、そのプロジェクト フォルダーに移動し、選択したタクソノミーを含むファイルを (DocumentProcessing フォルダー内の) 適切な場所にコピーします。
Document Understanding のタクソノミーは、Document Understanding フレームワーク全体でオブジェクトとして必要になります。
オブジェクトを読み込む最も簡単で便利な方法は、[タクソノミーを読み込み] アクティビティを使用する方法です。タクソノミー オブジェクトを読み込んだら、これを必要とする以降のすべてのフレームワークのコンポーネントで使用できます。