- 概要
- 基本情報
- モデルを構築する
- モデルを使用する
- 詳細
- 1040 (米国の個人所得税申告書) - ML パッケージ
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ML パッケージ
- 1040 Schedule D (米国の個人所得税申告書のスケジュール D) - ML パッケージ
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ML パッケージ
- 1040x (米国の個人所得税修正申告書) - ML パッケージ
- 3949a - ML パッケージ
- 4506T (米国の納税申告証明依頼書) - ML パッケージ
- 709 (米国の贈与税申告書) - ML パッケージ
- 941x (米国の雇用主による四半期連邦税修正申告書) - ML パッケージ
- 9465 (米国の分割納付申請書) - ML パッケージ
- ACORD125 (企業向け保険契約申込書) - ML パッケージ
- ACORD126 (企業総合賠償責任保険) - ML パッケージ
- ACORD131 (アンブレラ/エクセス保険) - ML パッケージ
- ACORD140 (商業保険申込書の財物補償条項) - ML パッケージ
- ACORD25 (賠償責任保険証明書) - ML パッケージ
- Bank Statements (銀行預金残高証明書) - ML パッケージ
- BillsOfLading (船荷証券) - ML パッケージ
- Certificate of Incorporation (会社存在証明書) - ML パッケージ
- Certificate of Origin (原産地証明書) - ML パッケージ
- Checks (小切手) - ML パッケージ
- Children's Product Certificate (子供向け製品証明書) - ML パッケージ
- CMS 1500 (米国の医療保険請求フォーム) - ML パッケージ
- EU Declaration of Conformity (EU 適合宣言書) - ML パッケージ
- Financial Statements (財務諸表) - ML パッケージ
- FM1003 (米国の統一住宅ローン申請書) - ML パッケージ
- I9 (米国の就労資格証明書) - ML パッケージ
- ID Cards (ID カード) - ML パッケージ
- Invoices (請求書) - ML パッケージ
- InvoicesAustralia (請求書 - オーストラリア) - ML パッケージ
- InvoicesChina (請求書 - 中国) - ML パッケージ
- Invoices Hebrew (請求書 - ヘブライ語) - ML パッケージ
- InvoicesIndia (請求書 - インド) - ML パッケージ
- InvoicesJapan (請求書 - 日本) - ML パッケージ
- Invoices Shipping (船積送り状) - ML パッケージ
- Packing Lists (梱包明細書) - ML パッケージ
- Payslips (給与明細) - ML パッケージ
- Passports (パスポート) - ML パッケージ
- Purchase Orders (発注書) - ML パッケージ
- Receipts (領収書) - ML パッケージ
- RemittanceAdvices (送金通知書) - ML パッケージ
- UB-04 (健康保険請求フォーム) - ML パッケージ
- Utility Bills (公共料金の請求書) - ML パッケージ
- Vehicle Titles (自動車の権利書) - ML パッケージ
- W2 (米国の源泉徴収票) - ML パッケージ
- W9 (米国の納税申告書) - ML パッケージ
- パブリック エンドポイント
- サポートされている言語
- Insights のダッシュボード
- データおよびセキュリティ
- ライセンスと請求ロジック
- 使い方
Document Understanding モダン プロジェクト ユーザー ガイド
開発
- ドキュメントをアップロードし、自動的に分類します。
- ドキュメントをドキュメントの種類に直接アップロードします。
- プロジェクトからファイルを管理します (ファイルの追加・削除)。
- ドキュメントのアノテーションを行います。
- フィールドを追加または削除します。
- 推奨事項を実行しながら分類モデルと抽出モデルをトレーニングする、ガイド付きエクスペリエンスを利用します。
プロジェクトが正常に作成され、ドキュメントを特定のドキュメントの種類にアップロードすると、ドキュメントに自動的にアノテーションが行われます。これは、ドキュメントの種類のスキーマに基づいて、専門化されたモデルを使用して行われます。このスキーマでは、特定のドキュメントの種類から抽出するフィールドが明確に定義されています。ドキュメントの種類のスキーマを確認するには、[アノテーション] ページに移動して [フィールド] セクションを確認します。
ドキュメントのアノテーションを行う方法について詳しくは、「ドキュメントのアノテーションを行う」をご覧ください。
[ドキュメントの種類マネージャー] から複数のフィールドの設定を編集できます。
[ドキュメントの種類マネージャー] にアクセスするには、編集するドキュメントの種類の横にある 3 点リーダー メニューのアイコン ⋮ を選択し、メニューから [ドキュメントの種類の管理] を選択します。
- フィールド名: フィールドの一意の名前です。
- コンテンツの種類: フィールドのコンテンツの種類です。
- 文字列: 会社名、住所、支払条件、および RPA ワークフロー内で解析または書式設定ロジックを手動で構築するその他のあらゆるフィールドに使用されます。
- 数値: 金額または数量に使用され、小数点/桁区切り文字をインテリジェントに解析します。
- 日付: YYYY-MM-DD 形式を使用して、出力を解析、フォーマット、統合します。
- 電話番号: 電話番号に使用されます。書式を設定すると文字と括弧が削除され、スペースがダッシュに置き換えられます。
- ID番号: 英数字のコードや ID の数字に使用されます。コンテンツの種類「文字列」に似ていますが、「
:
」の前に来る文字をすべて削除します。抽出する ID 番号に「:
」が含まれる場合は、データの損失を避けるためコンテンツの種類に「文字列」を使用してください。
- ショートカット: フィールドのショートカット キーです。1 つのキー、または 2 つのキーの組み合わせを使用できます。
- 詳細設定: 利用可能なオプションは、選択したフィールドのコンテンツの種類によって異なります。編集するフィールドの [詳細設定] ボタンを選択します。
図 2. ドキュメントの種類の詳細設定
- フィールド ID: フィールドの一意の ID です。
- 後処理
- first_span: モデルがドキュメント内のあるフィールドに対して 2 つ以上のインスタンスを予測した場合に、1 つ目のインスタンスを返すようにします。
- longest_value: モデルがドキュメント内のあるフィールドに対して 2 つ以上のインスタンスを予測した場合に、最も文字数が多い値を返すようにします。
- highest_confidence: モデルがドキュメント内のあるフィールドに対して 2 つ以上のインスタンスを予測した場合に、最も信頼度の高い値を返すようにします。
- exact_match: 予測は、真の値に完全に一致する場合にのみ正しい (スコア: 1) とみなされます。1 文字でも異なる場合は、正しくない (スコア: 0) とみなされます。これは、[文字列] フィールド以外のすべてのフィールドにおいて既定の設定です。
- levenshtein: 予測は、予測と真の値の間のレーベンシュタイン距離に基づいて、部分的に正しいものとみなされます。たとえば、10 文字の値が、最後の 2 文字を除き正しく予測された場合、この予測のスコアは 0.8 になります。
- 日付形式: コンテンツの種類が [日付] のフィールドでのみ利用できます。あいまいな日付をどのように解析して返すかを指定します。
- 自動
- 米国の形式: YYYY-DD-MM
- 米国以外の形式: YYYY-MM-DD
- 複数行: テキストが複数行にまたがるフィールドです (住所や説明)。これをオンにしないと、最初の行だけが返されます。
- 複数値: このフィールドは、ドキュメント内で検出されたすべての値を含むリストを返します。
トレーニングを再トリガーする前に新しいプロジェクト バージョンをパブリッシュした場合、ドキュメントの種類の設定に加えた変更は新しいプロジェクト バージョンに反映されません。
回避策: これを回避するには、ドキュメントの種類のフィールドに変更を加えた後、そのドキュメントの種類を再トレーニングします。そのためには、新しいバージョンをパブリッシュする前に、その種類の追加のドキュメントにタグを付けるか、ドキュメントを確認します。
ドキュメントの種類の設定は、[モデルの設定] ビューから変更できます。このためには、[モデルの設定] を選択します。
次の設定を変更できます。
- ベース モデル: [推奨されるアクション] に表示されるデータセットのサイズの推定値は、トレーニングに使用されるベース モデルによって異なります。対象のドキュメントの種類に最も類似したベース モデルを使用すると、必要とされるアノテーション作業量が減ります。
- 言語の数: [推奨されるアクション] に表示されるデータセットのサイズの推定値は、データセットに含まれる言語の数によって異なります。一般には、言語の数が多いほど、より多くのデータのアノテーションを行う必要があります。
利用可能なフィールド名を検索できます。これを行うには、[ドキュメントの種類マネージャー] のインターフェイスの左上隅にある検索バーを使用します。より効率的な検索を行うには、[フィルター] 機能を使用してコンテンツの種類でフィルター処理します。
- ドキュメントの種類: ドロップダウン リストから目的のドキュメントの種類を選択します。
- アップロード日: ドキュメントがアップロードされた日付の期間を選択します。
- ステータス: ドキュメントのステータスを選択します。
プロジェクトの総合スコアは右上隅から確認できます。このスコアは、すべてのドキュメントの種類の分類器と抽出器のスコアを考慮して算出されています。[プロジェクト スコア] をクリックすると [評価] セクションが表示され、より詳細なパフォーマンスの評価を確認できます。
ドキュメントの種類ごとのスコアは、[ドキュメントの種類] セクションで個別に確認できます。このスコアでは、モデルの全体的なパフォーマンスに加えてデータセットのサイズと品質も考慮されます。
- 不良 (0-49)
- 平均的 (50-69)
- 良好 (70-89)
- 優秀 (90-100)
[モデルの詳細なスコア] を選択して [評価] セクションに移動し、詳細情報を確認します。