- 概要
- 基本情報
- モデルを構築する
- モデルを使用する
- ML パッケージ
- 1040 (米国の個人所得税申告書) - ML パッケージ
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ML パッケージ
- 1040 Schedule D (米国の個人所得税申告書のスケジュール D) - ML パッケージ
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ML パッケージ
- 1040x (米国の個人所得税修正申告書) - ML パッケージ
- 3949a - ML パッケージ
- 4506T (米国の納税申告証明依頼書) - ML パッケージ
- 709 (米国の贈与税申告書) - ML パッケージ
- 941x (米国の雇用主による四半期連邦税修正申告書) - ML パッケージ
- 9465 (米国の分割納付申請書) - ML パッケージ
- ACORD125 (企業向け保険契約申込書) - ML パッケージ
- ACORD126 (企業総合賠償責任保険) - ML パッケージ
- ACORD131 (アンブレラ/エクセス保険) - ML パッケージ
- ACORD140 (商業保険申込書の財物補償条項) - ML パッケージ
- ACORD25 (賠償責任保険証明書) - ML パッケージ
- Bank Statements (銀行預金残高証明書) - ML パッケージ
- BillsOfLading (船荷証券) - ML パッケージ
- Certificate of Incorporation (会社存在証明書) - ML パッケージ
- Certificate of Origin (原産地証明書) - ML パッケージ
- Checks (小切手) - ML パッケージ
- Children's Product Certificate (子供向け製品証明書) - ML パッケージ
- CMS 1500 (米国の医療保険請求フォーム) - ML パッケージ
- EU Declaration of Conformity (EU 適合宣言書) - ML パッケージ
- Financial Statements (財務諸表) - ML パッケージ
- FM1003 (米国の統一住宅ローン申請書) - ML パッケージ
- I9 (米国の就労資格証明書) - ML パッケージ
- ID Cards (ID カード) - ML パッケージ
- Invoices (請求書) - ML パッケージ
- InvoicesAustralia (請求書 - オーストラリア) - ML パッケージ
- InvoicesChina (請求書 - 中国) - ML パッケージ
- Invoices Hebrew (請求書 - ヘブライ語) - ML パッケージ
- InvoicesIndia (請求書 - インド) - ML パッケージ
- InvoicesJapan (請求書 - 日本) - ML パッケージ
- Invoices Shipping (船積送り状) - ML パッケージ
- Packing Lists (梱包明細書) - ML パッケージ
- Payslips (給与明細) - ML パッケージ
- Passports (パスポート) - ML パッケージ
- Purchase Orders (発注書) - ML パッケージ
- Receipts (領収書) - ML パッケージ
- RemittanceAdvices (送金通知書) - ML パッケージ
- UB-04 (健康保険請求フォーム) - ML パッケージ
- Utility Bills (公共料金の請求書) - ML パッケージ
- Vehicle Titles (自動車の権利書) - ML パッケージ
- W2 (米国の源泉徴収票) - ML パッケージ
- W9 (米国の納税申告書) - ML パッケージ
- パブリック エンドポイント
- サポートされている言語
- Insights のダッシュボード
- データおよびセキュリティ
- ライセンス
- 使い方
- トラブルシューティング

Document Understanding モダン プロジェクト ユーザー ガイド
Measure
[評価] セクションでは、プロジェクトの全体的なステータスを確認し、改善の余地がある領域を確認できます。
このページの主な測定値は、プロジェクトの総合的なスコアです。
この測定値は、すべてのドキュメントの種類の分類器と抽出器のスコアを考慮して算出されています。各要因のスコアはモデルの評価に対応しており、「分類の評価」と「抽出の評価」でそれぞれ確認できます。
- 不良 (0-49)
- 平均的 (50-69)
- 良好 (70-89)
- 優秀 (90-100)
モデルのスコアに関係なく、トレーニングを停止するタイミングはプロジェクトのニーズに応じてユーザーが決定します。モデルが「優秀」と評価されていても、すべてのビジネス要件を満たすとは限りません。
分類スコアでは、モデルのパフォーマンスに加えてデータセットのサイズと品質も考慮されます。
- 要因: モデルのパフォーマンスを向上させるための推奨事項が表示されます。ドキュメントの種類ごとに、データセットのサイズやトレーニング済みのモデルのパフォーマンスに関する推奨事項を確認できます。
- メトリック: トレーニング ドキュメントとテスト ドキュメントの数、適合率、精度、再現率、ドキュメントの種類ごとの F1 スコアなど、役立つメトリックを提供します。
抽出スコアでは、モデルの全体的なパフォーマンスに加えてデータセットのサイズと品質も考慮されます。このビューは各ドキュメントの種類に分割されます。[アノテーションを行う] をクリックして、各ドキュメントの種類の [アノテーションを行う] ビューに直接移動することもできます。
- 要因: モデルのパフォーマンスを向上させるための推奨事項が表示されます。選択したドキュメントの種類のデータセットのサイズ (アップロードされたドキュメントの数、アノテーション済みのドキュメントの数) またはトレーニング済みのモデルのパフォーマンス (フィールドの精度) に関する推奨事項を確認できます。
- データセット: モデルのトレーニングに使用されるドキュメントに関する情報、インポートされたページの総数、およびラベル付けされたページの総数が表示されます。
- メトリック: 選択したドキュメントの種類のフィールド名、トレーニング ステータスの数、精度などの有用な情報とメトリックが表示されます。[高度なメトリックをダウンロード] ボタンを使用して、抽出モデルの高度なメトリックにアクセスすることもできます。この機能を使用すると、バッチごとの詳細なメトリックとモデルの結果を含む Excel ファイルをダウンロードできます。
[データセット] タブでは、モデルをトレーニングして適切な精度を得るために必要な手順に関するフィードバックや推奨事項が提供されるため、効果的なデータセットを構築できます。
管理バーに表示されるデータセットのステータス レベルには、以下の 3 種類があります。
- 赤 - ラベル付けされたトレーニング データの追加が必要です。
- オレンジ - ラベル付けされたトレーニング データの追加が推奨されます。
- 薄い緑 - ラベル付けされたトレーニング データは推奨事項を満たしています。
- 濃い緑 - ラベル付けされたトレーニング データは推奨事項を満たしています。ただし、パフォーマンスの低いフィールドには、追加のデータが必要である可能性があります。
セッションでフィールドが作成されていない場合は、データセットのステータス レベルは灰色になります。
[評価] セクションで、分類モデルまたは抽出モデルの 2 つのバージョンのパフォーマンスを比較できます。
分類モデルの 2 つのバージョンのパフォーマンスを比較するには、まず [評価] セクションに移動します。次に、目的の分類モデルの [モデルを比較] を選択します。
各列の上部にあるドロップダウン リストから、比較するバージョンを選択できます。既定では、現在のバージョン (利用可能な最新バージョンを示します) が左側で選択され、最新のパブリッシュ済みのバージョンが右側で選択されます。
- 適合率: 陽性と予測されたインスタンスの合計数に対する、正しく予測された陽性のインスタンスの割合です。適合率の高いモデルでは偽陽性が少なくなります。
- 精度: インスタンスの合計数のうちの、正しい予測数 (真陽性と真陰性の両方を含む) の割合です。
- 再現率: 正しく特定された実際の陽性のケースの割合です。
- F1 スコア: 適合率と再現率の調和平均です。上記の 2 つのメトリックのバランスを取ることを目的としています。偽陽性と偽陰性のトレードオフとして機能します。
表示されるドキュメントの種類の順序は、比較で使われた最新バージョンで使用されていた順序です。比較対象バージョンのいずれかで利用できないドキュメントの種類がある場合、各評価の値は [該当なし] に置き換えられます。
抽出モデルの 2 つのバージョンのパフォーマンスを比較するには、まず [評価] セクションに移動します。次に、目的の抽出モデルの [モデルを比較] を選択します。
各列の上部にあるドロップダウン リストから、比較するバージョンを選択できます。既定では、現在のバージョン (利用可能な最新バージョンを示します) が左側で選択され、最新のパブリッシュ済みのバージョンが右側で選択されます。
- フィールド名: アノテーション フィールドの名前です。
- コンテンツの種類: フィールドのコンテンツの種類です。
- 文字列
- Number
- 日付
- 電話番号
- ID 番号
- 評価: 抽出フィールドのパフォーマンスを視覚化するのに役立つ、モデルのスコアです。
- 精度: モデルが行う予測の合計数のうちの、正しいものの割合です。
表示されるフィールド名の順序は、比較で使われた最新バージョンで使用されていた順序です。比較対象バージョンのいずれかで利用できないフィールド名がある場合、各評価の値は [該当なし] に置き換えられます。
[表] セクションで、表のフィールドのスコアも比較できます。
各バージョンの高度なメトリックのファイルは、比較ページの [高度なメトリックをダウンロード] ボタンからダウンロードできます。