- 概要
- 基本情報
- アクティビティ
- Insights のダッシュボード
- Document Understanding Process
- クイック スタート チュートリアル
- フレームワーク コンポーネント
- ML パッケージ
- 概要
- Document Understanding - ML パッケージ
- DocumentClassifier (ドキュメント分類) - ML パッケージ
- OCR 機能を持つ ML パッケージ
- 1040 (米国の個人所得税申告書) - ML パッケージ
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ML パッケージ
- 1040 Schedule D (米国の個人所得税申告書のスケジュール D) - ML パッケージ
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ML パッケージ
- 1040x (米国の個人所得税修正申告書) - ML パッケージ
- 3949a - ML パッケージ
- 4506T (米国の納税申告証明依頼書) - ML パッケージ
- 709 (米国の贈与税申告書) - ML パッケージ
- 941x (米国の雇用主による四半期連邦税修正申告書) - ML パッケージ
- 9465 (米国の分割納付申請書) - ML パッケージ
- ACORD125 (企業向け保険契約申込書) - ML パッケージ
- ACORD126 (企業総合賠償責任保険) - ML パッケージ
- ACORD131 (アンブレラ/エクセス保険) - ML パッケージ
- ACORD140 (商業保険申込書の財物補償条項) - ML パッケージ
- ACORD25 (賠償責任保険証明書) - ML パッケージ
- Bank Statements (銀行預金残高証明書) - ML パッケージ
- BillsOfLading (船荷証券) - ML パッケージ
- Certificate of Incorporation (会社存在証明書) - ML パッケージ
- Certificate of Origin (原産地証明書) - ML パッケージ
- Checks (小切手) - ML パッケージ
- Children's Product Certificate (子供向け製品証明書) - ML パッケージ
- CMS 1500 (米国の医療保険請求フォーム) - ML パッケージ
- EU Declaration of Conformity (EU 適合宣言書) - ML パッケージ
- Financial Statements (財務諸表) - ML パッケージ
- FM1003 (米国の統一住宅ローン申請書) - ML パッケージ
- I9 (米国の就労資格証明書) - ML パッケージ
- ID Cards (ID カード) - ML パッケージ
- Invoices (請求書) - ML パッケージ
- InvoicesAustralia (請求書 - オーストラリア) - ML パッケージ
- InvoicesChina (請求書 - 中国) - ML パッケージ
- Invoices Hebrew (請求書 - ヘブライ語) - ML パッケージ
- InvoicesIndia (請求書 - インド) - ML パッケージ
- InvoicesJapan (請求書 - 日本) - ML パッケージ
- Invoices Shipping (船積送り状) - ML パッケージ
- Packing Lists (梱包明細書) - ML パッケージ
- Payslips (給与明細) - ML パッケージ
- Passports (パスポート) - ML パッケージ
- Purchase Orders (発注書) - ML パッケージ
- Receipts (領収書) - ML パッケージ
- RemittanceAdvices (送金通知書) - ML パッケージ
- UB-04 (健康保険請求フォーム) - ML パッケージ
- Utility Bills (公共料金の請求書) - ML パッケージ
- Vehicle Titles (自動車の権利書) - ML パッケージ
- W2 (米国の源泉徴収票) - ML パッケージ
- W9 (米国の納税申告書) - ML パッケージ
- その他のすぐに使える ML パッケージ
- パブリック エンドポイント
- トラフィック制限
- OCR の設定
- パイプライン
- OCR サービス
- サポートされている言語
- ディープ ラーニング
- データおよびセキュリティ
- ライセンス

Document Understanding ガイド
タクソノミー マネージャーを使用して、現在の自動化プロジェクト独自のタクソノミー ファイルを作成・編集できます。このタクソノミー ファイルにはユーザーが定義したドキュメントの種類が含まれ、それらはグループ別とカテゴリ別に整理されています。
[タクソノミーを読み込み] アクティビティを使ってタクソノミー ファイルを .NET データ型に変換して、次のアクティビティの入力値として渡すことで、このタクソノミー ファイルを使用できます。
タクソノミー マネージャーは、v1.6.0 またはそれ以降の UiPath.IntelligentOCR.Activities パッケージをプロジェクトの依存関係としてインストールした後でのみ使用できます。パッケージをインストールすると、[ウィザード] セクションのリボンに [タクソノミー マネージャー] ボタンが表示されます。
[タクソノミー マネージャー] ウィンドウでは、ドキュメントの種類を作成し、グルーブ別とカテゴリ別で整理することができます。プロジェクトでこのウィンドウを初めて開いたときには、グループ、カテゴリ、ドキュメントの種類のいずれも定義されていません。
最初の手順として、グループまたはドキュメントの種類を作成します。これら 2 つの違いは、グループは階層構造になっており、ドキュメントの種類は単一のファイルとして作成できる点です。複雑なプロジェクトの場合はグループ、カテゴリ、ドキュメントの種類を作成する必要がありますが、簡易なプロジェクトで必要になるのは 1 つまたは 2 つのドキュメントの種類のみです。
グループを作成する
グループを作成すると、グループ内に作成するドキュメントの種類のカテゴリも必要になります。それには、[グループ] ボタンを使用します。グループの名前を選択したら、[保存] ボタンを使用するか Enter キーを使用して保存できます。
カテゴリを作成する
グループを定義して選択したら、定義済みのボタンを使用して、グループ内に [カテゴリ] または [ドキュメントの種類] (あるいはその両方) を作成できます。[保存] を選択するか、Enter キーを使用して設定を保存します。
ドキュメントの種類を作成する
ドキュメントの種類は、グループの一部または 1 つのドキュメントとして作成できます。グループ内に作成した場合は、グループが選択されていることを確認して、[ドキュメントの種類] を選択します。
ドキュメントの種類を 1 つのファイルとして作成する場合は、グループが選択されていないことを確認して、[ドキュメントの種類] を選択します。[ドキュメントの種類] を選択したら、ファイルの名前を入力して [保存] を選択します。
すでに作成済みのドキュメントの種類を選択して、名前を変更したり、一意の ID をクリップボードにコピーしたり、それを別のグループまたはカテゴリに再割り当てしたりすることができます。ドキュメントの種類のコードを入力することもできます。
Group.Category.Document の構造をしており、クリップボードにコピーできます。 [ドキュメントの種類の ID] コードは任意の機能であり、この機能を使用してドキュメントを検索したり、ドキュメントを分類データで定義するドキュメントの種類にマップできます。
ドキュメントの種類の表示設定を構成する
- OCR の信頼度のしきい値: ドキュメントの種類のレベルで最小の信頼度のしきい値を設定します。
ドキュメントを検証ステーションに表示する場合、フィールドの [OCR の信頼度] のレベルと [抽出結果の信頼度] レベルの両方が、タクソノミー マネージャーで設定したしきい値よりも高い必要があります。
[OCR の信頼度のしきい値] の既定値は 90% です。
- 日付の表示形式: ドキュメントの種類に対して表示される日付形式です。
既定値は
YYYY-MM-DDです。 - 数値の小数点区切り文字: ドキュメントの種類に対して使用する、数値の小数点区切り文字です。
- 数値の 3 桁区切り文字: ドキュメントの種類に対して使用する、数値の 3 桁区切り文字です。
フィールドを作成する
[ドキュメントの種類] を選択すると、[フィールド] ボタンを使用して新しいフィールドを作成できるようになります。[フィールド] ボタンを選択したら、名前を入力し、ドロップダウン リストから種類を選択できます。
[フィールド] カテゴリには、[詳細] と [ルール] の 2 つのタブがあります。[詳細] タブには、選択したフィールドに関する情報としてフィールド名、割り当てられたホットキー、フィールドの種類などが表示されます。[ルール] タブでは、フィールドの抽出結果が満たす必要があるルールを作成できます。
次のフィールドの種類を使用できます。
- テキスト
- Number
- Date - この型を選択すると、期待される形式も指定できます (任意)。
注:
予想される形式を追加する場合は、MSDN (MicroSoft Developer Network) 準拠の形式を使用してください。
This format may be used by extractors and is used by the Data Extraction Scope activity when trying to parse a Date into its constituent Day, Month, and Year parts.
- 名前
- Address
- Set - この型を選択すると、事前設定されたリストからこのフィールドに複数の値を追加できます。
- Boolean
- Table - この型を選択すると、表の構造を編集できます。列を追加して、列の名前や種類を編集できます。
詳細タブ
新しいフィールドが作成されたら、選択して詳細を表示します。既定では、フィールドを開くと [詳細] タブが表示され、フィールドの名前、色、またはホットキーを変更できます。また、フィールドに複数の値が含まれているかどうか ([複数値である]) や、ドキュメント内に証拠のない値の処理を許可するかどうか ([参照が必要]) も指定できます。複数値オプションを使用すると、特定の値のリストに限定されることなく、複数の値をフィールドに含めることができます。
- 複数値である: フィールドが複数値として設定されている場合、その特定のフィールドに対して複数の値を報告できます。たとえば、エントリ数が可変の「取締役のリスト」を抽出するとします。単一列の表のような複数値フィールドを想像してみてください。
- 参照が必要: フィールドに参照が必要な場合、検証ステーションに表示されているドキュメントから選択しない限り、フィールドに値を追加できません。 特殊なフィールドにおいて、ドキュメントに表示されない可能性がある値をキャプチャする場合は、[参照が必要] をオフに切り替えることができます。 その効果として、ユーザーがその値の取得元であるドキュメント内の場所を指定せずに値を追加できるようになります。
また、ドロップダウン リストからフィールドの [種類] を選択するか、[既定値] を追加することもできます。ドキュメント内で特定されたフィールドに値がない場合に、[抽出結果] に入力される値を定義するには、[既定値] フィールドを使用します。
検証の設定
[検証の設定] には、抽出結果の信頼度のしきい値を設定するためのオプションがあります。このしきい値は、検証ステーションでフィールドを検証するときに考慮されます。抽出結果の信頼度のしきい値を設定するには、[抽出結果の信頼度のしきい値] に移動し、0 から 100 の範囲の値を入力します。
- 読み取り専用: 有効化すると、[抽出結果] フィールドに設定されている検証メモをメッセージとして、人間の検証者に検証ステーションで表示できます。無効化すると (既定のステート)、人間の検証者は検証ステーションでそのメモを編集して、意思決定に関する情報をロボットに伝えることができます。
- テキスト: テキスト を選択すると、検証者のコメントが検証ステーションにテキスト メッセージ (編集が有効化されている場合は編集可能なテキスト) として表示されます。 人間の検証者は、検証ステーションで最大 200 文字のメッセージを表示、編集、または追加できます。
- オプション: [オプション] を選択すると、一連のラジオ ボタンを設定できます。これらのボタンは人間の検証者に表示され、読み取り専用でない場合は検証ステーションで選択できます。最大 10 個のオプションを追加できます。
GetFieldValidatorNotes(<fieldId>) and SetFieldValidatorNotes(<fieldId>, <validatorNote>).
作成したフィールドは、フィールドの横にある削除ボタンを使用して削除したり、ドラッグ アンド ドロップ機能を使用して並べ替えたりすることができます。
フィールドは [詳細] タブの [削除] を選択して削除することもできます。
この手順を繰り返すことにより、複数のグループ、カテゴリ、ドキュメントの種類を作成できます。これらは、[検索] フィールドを使用することでフィルター処理できます。
ルール タブ
フィールド ルールは、抽出結果を最適化しワークフロー実行時に自動的に検証するのに役立ちます。抽出を効率よく行い、検証ステーションで必要なフィールドを強調表示して人間が簡単に検証できるようにする役割があります。1 つのフィールドにつき複数のルールを作成して適用できます。
ルールを定義するには、[エバリュエーターの種類] と [重要度レベル] を設定します。
エバリュエーターの種類
エバリュエーターの種類を選択して、定義したルールの評価方法を指定します。AND または OR の 2 種類から選択できます。
|
エバリュエーターの種類 |
説明 |
例 |
|---|---|---|
|
AND |
すべてのルールを実行する必要がある場合は、このエバリュエーターの種類を使用します。 |
ルール: 請求書番号は A で始まり X で終わる
|
|
OR |
実行するルールが 1 つだけの場合は、このエバリュエーターの種類を使用します。 |
ルール: 請求書番号は A または 123 で始まる
|
重要度レベル
フィールドに定義されたすべてのルールの重要度を示します。検証ステーション セッションでルールが満たされていない場合は、MUST レベルを設定することはできません。重要度レベルは MUST または SHOULD の 2 種類から選択できます。
作成したルールは、設定した重要度レベルが識別されるとトリガーされます。
ルールを送信する際、MUST レベルのルールは 100% 満たされている必要があります。満たされていない場合、送信操作は失敗します。SHOULD レベルのルールの場合は、ルールが満たされていなくても送信できます。
You can always check if a rule is broken by using the helper method from the ExtractionResult Class class, that resides in the UiPath.DocumentProcessing.Contracts activity package.
|
説明 | |
|---|---|
|
MUST |
作成したルールが抽出結果プロセスに必ず含まれていなければならない場合は、この重要度レベルを使用します。 |
|
SHOULD |
作成したルールが任意の場合は、この重要度レベルを使用します。 |
[エバリュエーターの種類] と [重要度レベル] を選択したら、新たに作成したルールの種類を設定する必要があります。選択できるオプションは複数あります。以下に、利用可能なすべてのオプションのリストを示します。
- 空でない
- 予想される値
- 次で始まる
- 次で終わる
- 次の値を含む
- 固定長
- メール アドレス
- 正規表現注: ルールを作成したフィールドの種類によって、選択できるルールの種類の数が決定されます。たとえば、Text フィールドの場合はすべてのルールの種類が表示されますが、Date フィールドの場合は [空でない] と [予想される値] の 2 種類しか表示されません。
ルールの種類
| 説明 | フィールドの種類 | 重要度レベル | エバリュエーターの種類 | |
|---|---|---|---|---|
| 空でない | 抽出された値は空にすることはできません。つまり、フィールドは必須です。 値が見つからない場合は、検証/手動の入力が必要です。 | 以下の型のフィールドに適用できます。
|
MUST SHOULD | AND
OR |
| 予想される値 | 予想されるすべての値をユーザーが定義します。抽出されるデータはルールの作成時に入力として追加された値の 1 つです (たとえば、Employee Type (従業員の種類) は「full-time (フルタイム)」、「part-time (パートタイム)」、「internship (インターンシップ)」のいずれかです)。 | 以下の型のフィールドに適用できます。
|
MUST SHOULD | AND
OR |
| 式 | データを抽出するルールとして機能する数式を定義します。 | number 型のフィールドに適用できます。
ルールの設定時に条件が必要です。 次のいずれかのオプションを選択します。
数式は必須です。定義済みの演算子を使用して式を定義します。以下の例をご覧ください。
|
MUST SHOULD | AND
OR |
| 次で始まる | これは固定のルールです。つまり、抽出された値は、ユーザーが追加した値のいずれかから開始する必要があります。 | 以下の型のフィールドに適用できます。
|
MUST SHOULD | AND
OR |
| 次で終わる | これは、抽出された値がユーザーによって追加された値のいずれかで終わる必要があることを意味する固定のルールです。 | 以下の型のフィールドに適用できます。
|
MUST SHOULD | AND
OR |
| 次の値を含む | これは、抽出された値がユーザーによって追加された値のいずれかを含む必要があることを意味する、固定のルールです。 | 以下の型のフィールドに適用できます。
|
MUST SHOULD | AND
OR |
| 固定長 | これは、抽出された値が特定の固定長である必要があることを意味する固定のルールです。 | 以下の型のフィールドに適用できます。
|
MUST SHOULD | AND
OR |
| メール アドレス | これは、抽出された値がメール形式で記述されている必要があることを意味する固定のルールです。 | 以下の型のフィールドに適用できます。
|
MUST SHOULD | AND
OR |
| 正規表現 | これは、抽出された値がユーザーによって追加された値のいずれかに類似する正規表現を含む必要があることを意味する、固定のルールです。 | 以下の型のフィールドに適用できます。
|
MUST SHOULD | AND
OR |
ルールを使用する
- [タクソノミー] パネルでフィールドを選択します。
- [ルール] タブに移動します。
- [新規追加] を選択して、新しいルールを追加します。
- [種類] が [次の値を含む] で、[式] が
st, str, streetであるfull addressルールを入力します。 - [エバリュエーターの種類] を選択します。
この例では、[OR] を選択します。
- [重要度レベル] を選択します。
この例では、[MUST (高)] を選択します。
- [新規追加] を選択します。
phone numberルールを入力します。この場合、[種類] は [空でない] です。- [新規追加] を選択します。
- [種類] が [次の値を含む] で、[式] が
city, stateであるcity or stateルールを入力します。
以下のアニメーション画像は、前述の手順を示しています。
その他のオプション
編集中
作成したグループ、カテゴリ、またはドキュメントの種類の名前を編集できます。それには、設定の 3 つのレベルのいずれかを選択し [名前] フィールドを編集します。
削除しています。
グループ、カテゴリ、ドキュメントの種類を削除することもできます。次の 2 つの利用可能なオプションがあります。
- 削除するオブジェクトの親要素で [削除]
を選択します。
- 削除するオブジェクトを選択しながら、[削除]
を選択します。
どちらの場合も、削除操作を確認するよう求めるポップアップが表示されます。[削除] を選択して操作を承認します。
カスタマイズとアクセシビリティ
新しく作成したフィールドには、ホットキーと色が自動的に割り当てられます。これらを使用して、可視性を向上させ、分類データ間をすばやく移動できます。ホットキーまたは色コード フィールドをクリックして、フィールドをカスタマイズします。
A customized field with color and hotkey can instruct the Validation Station and the Template Manager to use the assigned color when displaying the field and to use the assigned hotkey as a shortcut for providing values to fields. See the Validation Station page for more information about how to use the field shortcuts to assign values to a field.
フィールドに色とホットキーを割り当てるには、フィールドを選択し、[色] フィールドで特定のカラー コードを選択してから、[ホットキー] メニューから特定のホットキーを選択します。
キーボード ショートカットを使用して、タクソノミー マネージャー内を移動できます。[使用可能なキーボード ショートカットを表示] を選択し、[キーボード ショートカットを有効化] オプションをアクティブにして、キーボード ショートカットが誤ってトリガーされないようにします。ノードは折りたたむこともできます。
taxonomy.json ファイルに自動的に保存されます。