- 概要
- 基本情報
- モデルを構築する
- モデルを使用する
- 詳細
- Automation Cloud と Test Cloud のパブリック エンドポイント
- Automation Cloud および Test Cloud (公共部門向け) のパブリック エンドポイント
- 1040 (米国の個人所得税修正申告書) - ドキュメントの種類
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ドキュメントの種類
- (米国の個人所得税申告書のスケジュール D) - ドキュメントの種類
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ドキュメントの種類
- 1040x (米国の個人所得税修正申告書) - ドキュメントの種類
- 3949a (米国の課税・徴収漏れに関する情報提供フォーム) - ドキュメントの種類
- 4506T (米国の納税申告証明依頼書) - ドキュメントの種類
- 709 (米国の贈与税申告書) - ドキュメントの種類
- 941× (米国の雇用主による四半期連邦税修正申告書) - ドキュメントの種類
- 9465 (米国の分割納付申請書) - ドキュメントの種類
- ACORD125 (企業向け保険契約申込書) - ドキュメントの種類
- ACORD126 (企業総合賠償責任保険) - ドキュメントの種類
- ACORD131 (アンブレラ/エクセス保険) - ドキュメントの種類
- ACORD140 (商業保険申込書の財物補償条項) - ドキュメントの種類
- ACORD25 (賠償責任保険証明書) - ドキュメントの種類
- Bank Statements (銀行預金残高証明書) - ドキュメントの種類
- BillsOfLading (船荷証券) - ドキュメントの種類
- Certificate of Incorporation (会社存在証明書) - ドキュメントの種類
- Certificate of Origin (原産地証明書) - ドキュメントの種類
- Checks (小切手) - ドキュメントの種類
- Children's Product Certificate (子供向け製品証明書) - ドキュメントの種類
- CMS 1500 (米国の医療保険請求フォーム) - ドキュメントの種類
- EU Declaration of Conformity (EU 適合宣言書) - ドキュメントの種類
- Financial Statements (財務諸表) - ドキュメントの種類
- FM1003 (米国の統一住宅ローン申請書) - ドキュメントの種類
- I9 (米国の就労資格証明書) - ドキュメントの種類
- ID Cards (ID カード) - ドキュメントの種類
- Invoices (請求書) - ドキュメントの種類
- Invoices2 (請求書 2) - ドキュメントの種類
- InvoicesAustralia (請求書 - オーストラリア) - ドキュメントの種類
- Invoices China (請求書 - 中国) - ドキュメントの種類
- Invoices Hebrew (請求書 - ヘブライ語) - ドキュメントの種類
- Invoices India (請求書 - インド) - ドキュメントの種類
- Invoices Japan (請求書 - 日本) - ドキュメントの種類
- Invoices Shipping (船積送り状) - ドキュメントの種類
- Packing Lists (梱包明細書) - ドキュメントの種類
- Pay slips (給与明細) - ドキュメントの種類
- Passports (パスポート) - ドキュメントの種類
- Purchase Orders (発注書) - ドキュメントの種類
- Receipts (領収書) - ドキュメントの種類
- Receipts2 (領収書 2) - ドキュメントの種類
- Receipts Japan (領収書 - 日本) - ドキュメントの種類
- Remittance Advices (送金通知書) - ドキュメントの種類
- UB-04 (健康保険請求フォーム) - ドキュメントの種類
- US Mortgage Closing Disclosures (米国のローン契約締結開示説明書) - ドキュメントの種類
- Utility Bills (公共料金の請求書) - ドキュメントの種類
- Vehicle Titles (自動車の権利書) - ドキュメントの種類
- W2 (米国の源泉徴収票) - ドキュメントの種類
- W9 (米国の納税申告書) - ドキュメントの種類
- サポートされている言語
- Insights のダッシュボード
- データおよびセキュリティ
- ログ
- ライセンス
- 使い方
- トラブルシューティング
Document Understanding ガイド
このセクションでは、次の操作を行うことができます。
- ドキュメントをアップロードし、自動的に分類します。
- ドキュメントをドキュメントの種類に直接アップロードします。
- プロジェクトからファイルを管理します (ファイルの追加・削除、タグの追加・変更)。
- ドキュメントのアノテーションを行います。
- フィールドを追加または削除します。
- Have a guided experience on training classification and extraction models using the recommendations. Training is started manually per model: classifiers expose the Start Training button in the Model Training status pill (Helix Classifier on the Split & Classify page; Legacy Classifier in the Recommendations area). Extractors expose the Start Training button on each document type's annotation page, or via the action in its Model Training status pill. For details, see Start a training run.
ドキュメントのアノテーションを行う
プロジェクトが正常に作成され、ドキュメントを特定のドキュメントの種類にアップロードすると、ドキュメントに自動的にアノテーションが行われます。これは、ドキュメントの種類のスキーマに基づいて、生成 AI のモデルと専門家されたモデルを組み合わせて行なわれます。このスキーマでは、特定のドキュメントの種類から抽出するフィールドが明確に定義されています。ドキュメントの種類のスキーマを確認するには、[ アノテーション] ページに移動して [ フィールド ] セクションを確認します。
ドキュメントのアノテーションを行う方法について詳しくは、「ドキュメントのアノテーションを行う」をご覧ください。
レビューが必要な例外
検証ステーションで検証されたドキュメントを使用して、モデルのパフォーマンスをさらに向上させることができます。
検証手順の後に変更が発生した場合は、影響を受けるドキュメントの種類に [レビューが必要な例外] ボタンが表示されます。
図 1.[レビューが必要な例外] ボタン
モデルを再トレーニングする方法について詳しくは、「使い方」カテゴリの「抽出器を再トレーニングする」をご覧ください。
ドキュメントにタグを付ける
ドキュメントをアップロードしたら、ドキュメントにタグを追加できます。
ドキュメントごとに 1 つのタグ (最大 100 文字) を追加できます。
ドキュメントにタグを追加するには、追加するドキュメントを選択し、ドキュメントの種類のリストの上にあるメニューから [タグ] ボタンを選択します。
タグを使用してフィルター処理すると、ドキュメントをより簡単に検索できます。また、モデルのトレーニング時に、高度な設定ファイル内のタグごとに結果を確認することもできます。
ドキュメントの種類マネージャー
[ドキュメントの種類マネージャー] から複数のフィールドの設定を編集できます。
[ドキュメントの種類マネージャー] にアクセスするには、編集するドキュメントの種類の横にある 3 点リーダー メニューのアイコン ⋮ を選択し、メニューから [ドキュメントの種類の管理] を選択します。
図 2. ドキュメントの種類を選択マネージャー
Document Understanding の推奨事項は、ユーザーがその推奨事項で提案されたアクションを実行するための十分な権限を持っている場合にのみ表示されます。推奨されたアクションを実行する権限がない場合は、アクセス権が不十分であることを示すメッセージが表示されます。 Document Understanding Developer、Document Understanding Administrator、および Document Understanding Project Administrator のロールを持つユーザーは、利用可能なすべての推奨事項を参照できます。Project Administrator ロールでは、これらの権限はプロジェクト レベルでのみ適用されます。
抽出フィールド
新しいフィールドを編集または追加する
新しいフィールドを追加するには、[フィールドを追加] を選択し、必要な情報を入力します。各フィールドの以下のオプションを追加または編集できます。
-
フィールド名: フィールドの一意の名前です。
-
コンテンツの種類: フィールドのコンテンツの種類です。
- 文字列: 会社名、住所、支払条件、および RPA ワークフロー内で解析または書式設定ロジックを手動で構築するその他のあらゆるフィールドに使用されます。
- 数値: 金額または数量に使用され、小数点/桁区切り文字をインテリジェントに解析します。
- 日付: YYYY-MM-DD 形式を使用して、出力を解析、フォーマット、統合します。
- 電話番号: 電話番号に使用されます。書式を設定すると文字と括弧が削除され、スペースがダッシュに置き換えられます。
- ID番号: 英数字のコードや ID の数字に使用されます。コンテンツの種類「文字列」に似ていますが、
:文字の前に来る文字をすべて削除します。抽出する ID 番号に:文字が含まれる場合は、データの損失を避けるため、代わりにstringコンテンツの種類を使用してください。
-
ショートカット: フィールドのショートカット キーです。1 つのキー、または 2 つのキーの組み合わせを使用できます。
-
詳細設定: 利用可能なオプションは、選択したフィールドの コンテンツの種類 によって異なります。編集するフィールドの [ 詳細設定 ] ボタンを選択します: 図 3.ドキュメントの種類の詳細設定
- フィールド ID: フィールドの一意の ID です。
- 後処理
- first_span: モデルがドキュメント内のあるフィールドに対して 2 つ以上のインスタンスを予測した場合に、1 つ目のインスタンスを返すようにします。
- longest_value: モデルがドキュメント内のあるフィールドに対して 2 つ以上のインスタンスを予測した場合に、最も文字数が多い値を返すようにします。
- highest_confidence: モデルがドキュメント内のあるフィールドに対して 2 つ以上のインスタンスを予測した場合に、最も信頼度の高い値を返すようにします。スコアリング: モデルの予測の評価を実行するときの精度を決定するために使用する尺度です。コンテンツの種類が [文字列] のフィールドでのみ利用できます。
- exact_match: 予測は、真の値に完全に一致する場合にのみ正しい (スコア: 1) とみなされます。1 文字でも異なる場合は、正しくない (スコア: 0) とみなされます。これは、[文字列] フィールド以外のすべてのフィールドにおいて既定の設定です。
- levenshtein: 予測は、予測と真の値の間のレーベンシュタイン距離に基づいて、部分的に正しいものとみなされます。たとえば、10 文字の値が、最後の 2 文字を除き正しく予測された場合、この予測のスコアは 0.8 になります。
- 日付形式: コンテンツの種類が [日付] のフィールドでのみ利用できます。あいまいな日付をどのように解析して返すかを指定します。
- 自動
- 米国の形式: YYYY-DD-MM
- 米国以外の形式: YYYY-MM-DD
- 複数行: テキストが複数行にまたがるフィールドです (住所や説明)。これをオンにしないと、最初の行だけが返されます。
- 複数値: このフィールドは、ドキュメント内で検出されたすべての値を含むリストを返します。
この画面からフィールドを並べ替えることもできます。
Changes in document type settings do not trigger training automatically. A warning is shown when a schema change has not yet been included in a trained model. To include the change, select Start Training on the document type's annotation page before you create a new project version.
フィールド名を検索
利用可能なフィールド名を検索できます。これを行うには、[ドキュメントの種類マネージャー] のインターフェイスの左上隅にある検索バーを使用します。より効率的な検索を行うには、[フィルター] 機能を使用してコンテンツの種類でフィルター処理します。
図 4. フィールド名を検索する
フィールドを削除する
削除するフィールドの横にある [削除] ボタンを選択します。
図 5. フィールドを削除する
複数 (またはすべて) のフィールドを選択して、一度に削除することもできます。削除するフィールドの横にあるチェック マークを選択して、[削除] を選択します 。
図 6. 複数のフィールドを一度に削除する
分類フィールド
分類フィールドは、ドキュメント全体を参照するデータ ポイントです。たとえば、領収書の経費の種類 (飲食、宿泊、飛行機、輸送) または請求書の通貨 (米ドル、ユーロ、日本円) が分類フィールドです。
現在、分類フィールド機能には以下の制限が適用されます。
- [ドキュメント データを抽出] アクティビティを使用する場合、分類フィールドはモダン プロジェクトの抽出器とすぐに使えるモデルではサポートされますが、クラシック プロジェクトの抽出器ではサポートされません。
- カスタムのドキュメントの種類の場合、分類フィールドは、トレーニングが終了した後にのみ抽出されます。
分類フィールドを編集または追加する
新しい分類フィールドを追加するには、[フィールドを追加] を選択し、新しいフィールドの名前を入力します。
この画面からフィールドを並べ替えることもできます。
図 7. 新しい分類フィールドの追加
分類フィールドの ID を確認するには、必要な分類フィールドの横にある [詳細設定] を選択します。
図 8. 分類フィールドの詳細設定
クラスを編集または追加する
分類フィールドに新しいクラスを追加するには、[クラスを追加] を選択し、クラス名と説明 (任意) を入力します。
各分類フィールドには、少なくとも 2 つのクラスが含まれている必要があります。
図 9. 新しいクラスの追加
クラスごとに名前と説明を編集できます。
この画面からクラスを並べ替えることもできます。
クラスを削除するには、削除するクラスの横にある [削除] を選択します。
図 10. クラスの削除
設定
ドキュメントの種類の設定は、[設定] タブから変更できます。
図 11. モデルの設定
次の設定を変更できます。
- ベース モデル: [推奨されるアクション] に表示されるデータセットのサイズの推定値は、トレーニングに使用されるベース モデルによって異なります。対象のドキュメントの種類に最も類似したベース モデルを使用すると、必要とされるアノテーション作業量が減ります。
- 言語の数: [推奨されるアクション] に表示されるデータセットのサイズの推定値は、データセットに含まれる言語の数によって異なります。一般には、言語の数が多いほど、より多くのデータのアノテーションを行う必要があります。
ドキュメントを検索する
アップロードしたドキュメントはドキュメント名で検索できます。これを行うには、[構築] セクションの右上隅にある検索バーを使用します。より効率的な検索を行うには、[フィルター] 機能を使用して次の条件でフィルター処理します。
- ドキュメントの種類: ドロップダウン リストから目的のドキュメントの種類を選択します。
- アップロード日: ドキュメントがアップロードされた日付の期間を選択します。
- ステータス:ドキュメントのステータスを選択します。
- タグ: フィルター処理するタグを選択します。
図 12. ドキュメントをフィルター処理
プロジェクトとモデルのスコア
プロジェクトの総合スコアは右上隅から確認できます。このスコアは、すべてのドキュメントの種類の分類器と抽出器のスコアを考慮して算出されています。[ プロジェクト スコア ] を選択すると [ 評価 ] セクションが表示され、より詳細なパフォーマンスの評価を確認できます。
ドキュメントの種類ごとのスコアは、[ドキュメントの種類] セクションで個別に確認できます。このスコアでは、モデルの全体的なパフォーマンスに加えてデータセットのサイズと品質も考慮されます。
プロジェクトのスコアを取得するには、少なくとも 10 個のドキュメントをアップロードする必要があります。ドキュメントの種類のスコアの場合、同じドキュメントの種類で少なくとも 10 個のドキュメントが必要です。
スコア タグを選択すると、使用しているモデルに関するモデルの評価を確認できます。モデルの評価は、分類モデルのパフォーマンスを視覚化するのに役立つ機能です。評価は、次のように 0 から 100 までのモデルのスコアとして表されます。
- 不良 (0-49)
- 平均的 (50-69)
- 良好 (70-89)
- 優秀 (90-100)
[モデルの詳細なスコア] を選択して [評価] セクションに移動し、詳細情報を確認します。