- 概要
- 基本情報
- モデルを構築する
- モデルを使用する
- 詳細
- パブリック エンドポイント
- 1040 (米国の個人所得税修正申告書) - ドキュメントの種類
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ドキュメントの種類
- (米国の個人所得税申告書のスケジュール D) - ドキュメントの種類
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ドキュメントの種類
- 1040x (米国の個人所得税修正申告書) - ドキュメントの種類
- 3949a (米国の課税・徴収漏れに関する情報提供フォーム) - ドキュメントの種類
- 4506T (米国の納税申告証明依頼書) - ドキュメントの種類
- 709 (米国の贈与税申告書) - ドキュメントの種類
- 941× (米国の雇用主による四半期連邦税修正申告書) - ドキュメントの種類
- 9465 (米国の分割納付申請書) - ドキュメントの種類
- ACORD125 (企業向け保険契約申込書) - ドキュメントの種類
- ACORD126 (企業総合賠償責任保険) - ドキュメントの種類
- ACORD131 (アンブレラ/エクセス保険) - ドキュメントの種類
- ACORD140 (商業保険申込書の財物補償条項) - ドキュメントの種類
- ACORD25 (賠償責任保険証明書) - ドキュメントの種類
- Bank Statements (銀行預金残高証明書) - ドキュメントの種類
- BillsOfLading (船荷証券) - ドキュメントの種類
- Certificate of Incorporation (会社存在証明書) - ドキュメントの種類
- Certificate of Origin (原産地証明書) - ドキュメントの種類
- Checks (小切手) - ドキュメントの種類
- Children's Product Certificate (子供向け製品証明書) - ドキュメントの種類
- CMS 1500 (米国の医療保険請求フォーム) - ドキュメントの種類
- EU Declaration of Conformity (EU 適合宣言書) - ドキュメントの種類
- Financial Statements (財務諸表) - ドキュメントの種類
- FM1003 (米国の統一住宅ローン申請書) - ドキュメントの種類
- I9 (米国の就労資格証明書) - ドキュメントの種類
- ID Cards (ID カード) - ドキュメントの種類
- Invoices (請求書) - ドキュメントの種類
- Invoices2 (請求書 2) - ドキュメントの種類
- InvoicesAustralia (請求書 - オーストラリア) - ドキュメントの種類
- Invoices China (請求書 - 中国) - ドキュメントの種類
- Invoices Hebrew (請求書 - ヘブライ語) - ドキュメントの種類
- Invoices India (請求書 - インド) - ドキュメントの種類
- Invoices Japan (請求書 - 日本) - ドキュメントの種類
- Invoices Shipping (船積送り状) - ドキュメントの種類
- Packing Lists (梱包明細書) - ドキュメントの種類
- Pay slips (給与明細) - ドキュメントの種類
- Passports (パスポート) - ドキュメントの種類
- Purchase Orders (発注書) - ドキュメントの種類
- Receipts (領収書) - ドキュメントの種類
- Receipts2 (領収書 2) - ドキュメントの種類
- Receipts Japan (領収書 - 日本) - ドキュメントの種類
- Remittance Advices (送金通知書) - ドキュメントの種類
- UB-04 (健康保険請求フォーム) - ドキュメントの種類
- US Mortgage Closing Disclosures (米国のローン契約締結開示説明書) - ドキュメントの種類
- Utility Bills (公共料金の請求書) - ドキュメントの種類
- Vehicle Titles (自動車の権利書) - ドキュメントの種類
- W2 (米国の源泉徴収票) - ドキュメントの種類
- W9 (米国の納税申告書) - ドキュメントの種類
- サポートされている言語
- Insights のダッシュボード
- データおよびセキュリティ
- ログ
- ライセンス
- 使い方
- トラブルシューティング

Document Understanding モダン プロジェクト ユーザー ガイド
新しいプロジェクトを作成する際に、欧州と米国にあるテナントでは、新しい分割器および分類器モデルを有効化できます。このトレーニング可能なモデルは、複雑なドキュメントを分割および分類するようにトレーニングできるため、ドキュメント パケットを処理できます。
このページの手順に従って Document UnderstandingTM プロジェクトを作成し、新しい分割器と分類器モデルを有効化します。
- Document Understanding を開きます。
- [ プロジェクトを作成] を選択します。
- 希望のプロジェクト名を入力します。
- モダン エクスペリエンスを表す [モダン] を選択します。
- [新しい分割器および分類器モデルを有効化] トグルをオンにします。
- 必要に応じて [詳細オプション] を設定します。
- [分割を有効化] トグルをオンにして、分類前にモデルがドキュメントを個別のファイルに分割できるようにします。この機能は、[プロジェクト設定] 画面からも有効化できます。
重要: [分割を有効化] オプションをオフにすると、全ドキュメントが丸ごと 1 つとして分類されます。
- [OCR メソッド] ドロップダウン リストから、新しいプロジェクトで使用する OCR を選択します。
- [OCR API キー] にキーを入力します。
注: UiPath® の OCR を選択した場合、このフィールドには自動的に入力されます。
- [OCR の URL] に OCR の URL を入力します。UiPath の OCR の URL の完全なリストについては、「パブリック エンドポイント」をご覧ください。
- [PDF に OCR を適用] で、PDF に OCR を適用するかどうかを選択します。既定では [自動] に設定されています。
- [分割を有効化] トグルをオンにして、分類前にモデルがドキュメントを個別のファイルに分割できるようにします。この機能は、[プロジェクト設定] 画面からも有効化できます。
- [作成] を選択します。
プロジェクトが正常に作成されたら、[ビルド] セクションからドキュメントをアップロードできます。
利用可能な次の 2 つのオプションのいずれかを選択します。
- ドキュメントからデータを抽出: 請求書番号、日付、合計数などの特定のフィールドをドキュメントから取得します。
注: ドキュメントからフィールドを抽出する必要がある場合は、このオプションを選択することをお勧めします。
- ドキュメントを分類および分割: ドキュメントを種類別に並べ替え、1 つのファイル内で複数のドキュメントを区分します。
注: ドキュメントを分割および分類する必要がある場合は、このオプションを選択することをお勧めします。
- ドキュメントの種類を選択します。
- [アップロード] を選択するか、新しいドキュメントの種類内にファイルをドラッグ アンド ドロップします。アップロードが完了するまで待ちます。
特定の複合ファイルには、複数のドキュメントの種類が含まれます。新しいモデルは、各サブドキュメントの開始位置と終了位置を検出し、それに応じて各セクションを分類できます。
-
[ドキュメントを分類および分割] をクリックし、ドキュメント パケットをアップロードします。ドキュメントのアップロードと処理が完了するまで待ちます。
-
アップロード セクションから任意のドキュメントを選択し、[分割] をクリックします。これにより、分割アノテーション インターフェイスが開きます。
注: プロジェクトにトレーニング済みのモデルがすでにある場合は、そのモデルを使用して、アップロードされたドキュメントに事前にアノテーションが行われます。これにより、アノテーションが高速化され、新しいドキュメントの予測結果を確認できるようになります。 -
[新しいドキュメントの種類] をクリックして、目的のタクソノミー内の各項目に対してドキュメントの種類を作成します。定義済みのドキュメントの種類を選択するか、カスタムのドキュメントの種類を作成できます。
注: カスタムのドキュメントの種類の場合は、名前、目的の簡単な説明、および識別に役立つコンマ区切りの主要インジケーター (一意のフィールドや用語など) を入力します。 -
ドキュメントを区切る場所を指定します。ドロップダウン メニューを使用して、各ページ範囲をドキュメントの種類に割り当てます。ドキュメントのアノテーションが完了したら、[確定] をクリックします。
注: [確定] をクリックすると、ドキュメントの処理がトリガーされます。処理後、各サブドキュメントは [構築] セクション内の対応するドキュメントの種類の下に表示されます。注: ドキュメントの種類に移動された各サブドキュメントには、そのドキュメントの種類のスキーマで事前アノテーションが行われます。
モデルのトレーニング
モデルのトレーニングがトリガーされるのは、次の後のみです。
- 少なくとも 5 つのサブドキュメントが作成され、アノテーションが行われた。
注: たとえば、1 つの PDF を使用している場合、トレーニングを開始するには、少なくとも 5 つのサブドキュメントが含まれていることを確認してください。PDF を 2 つ使用している場合は、一方に少なくとも 2 つのサブドキュメント、もう一方に少なくとも 3 つのサブドキュメントを含める必要があります。
- ドキュメントが確定された。
トレーニングのステータスは [分類] パネルの右上隅に表示されます。
- 最大ドキュメント サイズは 160 MB または 500 ページです。
- ページを並べ替えたり削除したりすることはできません。
分割と分類の予測
新しいモデルをトレーニングすると、必ずプロジェクト内のすべてのドキュメントがトレーニング済みのモデルから予測を受け取ります。これにより、分類モデルのパフォーマンスを確認できます。
[種類] 列には、アノテーションが行われたドキュメントの種類であるグラウンド トゥルースが表示されます。[予測された種類] 列には、モデルによって予測された種類が表示されます。
既定では、ドキュメント パケットのみが UI に表示されます。各パケット内のサブドキュメントを表示するには、[表示] をクリックし、[サブドキュメントを含む] チェックボックスをオンにします。
[予測を表示] トグルを有効化すると、アノテーション インターフェイスで予測を表示することもできます。