- 概要
- 基本情報
- モデルを構築する
- モデルを使用する
- 詳細
- Automation Cloud と Test Cloud のパブリック エンドポイント
- Automation Cloud および Test Cloud (公共部門向け) のパブリック エンドポイント
- 1040 (米国の個人所得税修正申告書) - ドキュメントの種類
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ドキュメントの種類
- (米国の個人所得税申告書のスケジュール D) - ドキュメントの種類
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ドキュメントの種類
- 1040x (米国の個人所得税修正申告書) - ドキュメントの種類
- 3949a (米国の課税・徴収漏れに関する情報提供フォーム) - ドキュメントの種類
- 4506T (米国の納税申告証明依頼書) - ドキュメントの種類
- 709 (米国の贈与税申告書) - ドキュメントの種類
- 941× (米国の雇用主による四半期連邦税修正申告書) - ドキュメントの種類
- 9465 (米国の分割納付申請書) - ドキュメントの種類
- ACORD125 (企業向け保険契約申込書) - ドキュメントの種類
- ACORD126 (企業総合賠償責任保険) - ドキュメントの種類
- ACORD131 (アンブレラ/エクセス保険) - ドキュメントの種類
- ACORD140 (商業保険申込書の財物補償条項) - ドキュメントの種類
- ACORD25 (賠償責任保険証明書) - ドキュメントの種類
- Bank Statements (銀行預金残高証明書) - ドキュメントの種類
- BillsOfLading (船荷証券) - ドキュメントの種類
- Certificate of Incorporation (会社存在証明書) - ドキュメントの種類
- Certificate of Origin (原産地証明書) - ドキュメントの種類
- Checks (小切手) - ドキュメントの種類
- Children's Product Certificate (子供向け製品証明書) - ドキュメントの種類
- CMS 1500 (米国の医療保険請求フォーム) - ドキュメントの種類
- EU Declaration of Conformity (EU 適合宣言書) - ドキュメントの種類
- Financial Statements (財務諸表) - ドキュメントの種類
- FM1003 (米国の統一住宅ローン申請書) - ドキュメントの種類
- I9 (米国の就労資格証明書) - ドキュメントの種類
- ID Cards (ID カード) - ドキュメントの種類
- Invoices (請求書) - ドキュメントの種類
- Invoices2 (請求書 2) - ドキュメントの種類
- InvoicesAustralia (請求書 - オーストラリア) - ドキュメントの種類
- Invoices China (請求書 - 中国) - ドキュメントの種類
- Invoices Hebrew (請求書 - ヘブライ語) - ドキュメントの種類
- Invoices India (請求書 - インド) - ドキュメントの種類
- Invoices Japan (請求書 - 日本) - ドキュメントの種類
- Invoices Shipping (船積送り状) - ドキュメントの種類
- Packing Lists (梱包明細書) - ドキュメントの種類
- Pay slips (給与明細) - ドキュメントの種類
- Passports (パスポート) - ドキュメントの種類
- Purchase Orders (発注書) - ドキュメントの種類
- Receipts (領収書) - ドキュメントの種類
- Receipts2 (領収書 2) - ドキュメントの種類
- Receipts Japan (領収書 - 日本) - ドキュメントの種類
- Remittance Advices (送金通知書) - ドキュメントの種類
- UB-04 (健康保険請求フォーム) - ドキュメントの種類
- US Mortgage Closing Disclosures (米国のローン契約締結開示説明書) - ドキュメントの種類
- Utility Bills (公共料金の請求書) - ドキュメントの種類
- Vehicle Titles (自動車の権利書) - ドキュメントの種類
- W2 (米国の源泉徴収票) - ドキュメントの種類
- W9 (米国の納税申告書) - ドキュメントの種類
- サポートされている言語
- Insights のダッシュボード
- データおよびセキュリティ
- ログ
- ライセンス
- 使い方
- トラブルシューティング
Document Understanding ガイド
利用可能な機能は、使用するクラウド プラットフォームによって異なります。詳しくは、「 デプロイの種類を選択する」をご覧ください。
検証ステーションで検証されたドキュメントを使用して、モデルのパフォーマンスをさらに向上させることができます。
以下のアクティビティを使用して、処理されたドキュメントを再トレーニングできます。
- UiPath.DocumentUnderstanding.Activities: このアクティビティ パッケージを使用して処理され、検証ステーションで検証されたすべてのドキュメントが自動的に収集され、再トレーニングに使用できます。
- UiPath.IntelligentOCR.Activities (バージョン 6.25.0-preview 以降): このアクティビティ パッケージを使用して処理されたドキュメントを再トレーニングするには、ワークフローで [Document Understanding プロジェクト抽出器トレーナー] アクティビティを使用します。これにより、再トレーニングのためにドキュメントを収集できます。
[構築] セクション内で、対応するドキュメントの種類に対して [レビューの例外] ボタンが常に表示されるようになりました。ドキュメントが収集されていない場合、ボタンは引き続き使用可能で、カウントは 0 と表示されます。
Collected documents are not automatically included in the training set. Review the documents and confirm their addition in the training set. Then select Start Training on the document type's annotation page to queue a new training run that includes the added documents. For details, see Start a training run.
レビューが必要な例外
検証ステーションからのドキュメントを使用してモデルを微調整するには、以下の手順に従います。
例外として収集されたドキュメントは 90 年間保存され、その後自動的に削除されます。期間が 7 日を超える検証タスクでは、ドキュメントは収集されません。
-
[レビューが必要な例外] ボタンを選択します。
-
微調整の例外メニューから例外文書を確認します。
各ドキュメントについて、次の情報を確認できます。
- ファイル名: 例外を含むドキュメントのファイル名です。
- ステータス: ドキュメントのステータスです。
- ページ数: ドキュメントに含まれるページ数です。
- プロジェクトのバージョン: ドキュメントを含むプロジェクトのバージョンです。
- 処理日時: ドキュメントが処理された日付です。
- 抽出されたフィールド数: 例外を含むドキュメントに対して抽出されたフィールドの数です。
- 修正されたフィールド数: 検証手順中に変更されたフィールドの数です。
- 検証者名: ドキュメントを検証したユーザーのユーザー名です。
注:微調整 の例外 リストには、他の Document Understanding プロジェクトまたは環境からインポートしたドキュメントが含まれる場合があります。
-
微調整に使用するドキュメントをリストから選択します。
各ドキュメントについて、次の情報を確認できます。
- 抽出されたすべてのフィールドが、モデルの信頼度とともに表示されます。信頼度の値が [該当なし] の場合は、そのフィールドが自動的には抽出されず、検証者によって手動で追加されたことを示します。
- 修正されたフィールドには、抽出されたフィールドの名前の横に黄色の点が表示されます。
- 修正されたすべてのフィールドについて、次の情報を確認できます。
- 予測値: モデルによって予測された値です。
- 修正後の値: 手動で変更した場合は、検証後の値です。検証後にドキュメントの種類が変更されていない場合、値は [該当なし] になります。
- 参照: ドキュメント上で強調表示されている元の値です。このドキュメントを微調整に使用する場合、この値がアノテーションに使用されます。
- 信頼度で並べ替えると、信頼度が低く修正されていないフィールドを簡単に確認できます。
- 修正されたフィールドでフィルター処理すると、そのフィールドにのみ焦点を当てることができます。
-
このドキュメントにさらにアノテーションを行う場合は [アノテーションを行う] を選択します。このドキュメントを使用してモデルを再トレーニングする場合は、[微調整に使用] を選択します。
- 微調整に使用:
- ドキュメントがモデルの微調整に適した例であり、ドキュメント内のすべてのフィールドが正しく参照されている場合に選択します。
- ドキュメントは、例外タグが付けられ、すべてのアノテーションが確認済みの状態でトレーニングにインポートされます。このドキュメントを使用して微調整が行われます。
- アノテーションを行う:
- ドキュメントはモデルの微調整に適した例であるものの、検証エラーがいくつかある場合に選択します。たとえば、ドキュメント内で一部のフィールドが正しく参照されておらず、さらに修正が必要である場合などです。
- ドキュメントは、例外タグが付けられ、すべてのアノテーションが未確認の状態でトレーニングにインポートされます。ドキュメントを使用してモデルを微調整するには、[構築] セクションでアノテーションを確認する必要があります。
- さらにドキュメントのアノテーションを行う場合、ドキュメントのアノテーションを行う方法について詳しくは、「ドキュメントのアノテーションを行う」をご覧ください。
- 除外:
- ドキュメントが適切な例ではないため、レビューが必要な例外のリストから削除し、今後のレビュー セッションでレビューする必要がない場合に選択します。
- ドキュメントのステータスを変更して、変更を元に戻すことができます。
図 1.微調整またはアノテーションに使用する、選択したドキュメント
- 微調整に使用:
微調整用のドキュメントをすべて選択すると、モデルは、検証ステーションからの新しいデータを使用して再トレーニングされます。
新しいプロジェクトのバージョンを作成し、[評価] セクションの [モデルを比較] 機能を使用して、モデルのパフォーマンスを比較できます。
[プレビュー] 再トレーニング候補者をエクスポートおよびインポートする
Document Understanding では、再トレーニングの候補をある環境からエクスポートして、別の環境にインポートできます。
この設定は、開発・テスト・運用の環境の構造を維持するシナリオで一般的に使用されます。このプロセスでは、開発環境の Document Understanding プロジェクトをテスト、UAT、または本番環境といった上位の環境にコピーして使用します。この構成では、再トレーニング用のドキュメントが運用プロジェクト内で収集されます。エクスポート/インポート機能を使用することで、ドキュメントを開発環境に戻し、モデルを再トレーニングできます。その後、更新された内容をテストや本番などの上位環境に反映します。
再トレーニング候補をエクスポートする
[エクスポート] ボタンを選択すると、再トレーニングの候補を [レビューの例外] ページから直接エクスポートできます。[ エクスポートを表示 ] を選択して、エクスポートされたファイルのリストにアクセスします。
レビュー プロセスの管理方法に応じて、収集したすべてのドキュメントをエクスポートするか、選択したサブセットだけをエクスポートするかを選択できます。以下の説明をご確認ください。
-
収集したすべてのドキュメントをエクスポートし、インポート後にモデルを再トレーニングする予定の環境で選別できます。
-
現在の環境でレビューを完了して、再トレーニングに使用する特定のドキュメントのみをエクスポートできます。
再トレーニング候補をインポートする
インポートは [レビューが必要な例外] ページから行います。インポートされたドキュメントは、検証ステーションから自動的に収集されたドキュメントと同様の方法で表示され、[レビュー待ち] ステータスになります。
インポートされたドキュメントは、再トレーニング候補として追加されます。モデルを微調整するには、プロジェクトで直接収集されたドキュメントの場合と同じ手順に従います。トレーニング セットに追加する前に、再トレーニングの候補を必ず確認して確定してください。