document-understanding
latest
false
- 概要
- 基本情報
- アクティビティ
- Insights のダッシュボード
- Document Understanding Process
- クイック スタート チュートリアル
- フレームワーク コンポーネント
- ML パッケージ
- 概要
- Document Understanding - ML パッケージ
- DocumentClassifier (ドキュメント分類) - ML パッケージ
- OCR 機能を持つ ML パッケージ
- 1040 (米国の個人所得税申告書) - ML パッケージ
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ML パッケージ
- 1040 Schedule D (米国の個人所得税申告書のスケジュール D) - ML パッケージ
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ML パッケージ
- 1040x (米国の個人所得税修正申告書) - ML パッケージ
- 3949a - ML パッケージ
- 4506T (米国の納税申告証明依頼書) - ML パッケージ
- 709 (米国の贈与税申告書) - ML パッケージ
- 941x (米国の雇用主による四半期連邦税修正申告書) - ML パッケージ
- 9465 (米国の分割納付申請書) - ML パッケージ
- ACORD131 (アンブレラ/エクセス保険) - ML パッケージ
- ACORD140 (商業保険申込書の財物補償条項) - ML パッケージ
- ACORD25 (賠償責任保険証明書) - ML パッケージ
- Bank Statements (銀行預金残高証明書) - ML パッケージ
- BillsOfLading (船荷証券) - ML パッケージ
- Certificate of Incorporation (会社存在証明書) - ML パッケージ
- Certificate of Origin (原産地証明書) - ML パッケージ
- Checks (小切手) - ML パッケージ
- Children's Product Certificate (子供向け製品証明書) - ML パッケージ
- CMS 1500 (米国の医療保険請求フォーム) - ML パッケージ
- EU Declaration of Conformity (EU 適合宣言書) - ML パッケージ
- Financial Statements (財務諸表) - ML パッケージ
- FM1003 (米国の統一住宅ローン申請書) - ML パッケージ
- I9 (米国の就労資格証明書) - ML パッケージ
- ID Cards (ID カード) - ML パッケージ
- Invoices (請求書) - ML パッケージ
- InvoicesAustralia (請求書 - オーストラリア) - ML パッケージ
- InvoicesChina (請求書 - 中国) - ML パッケージ
- Invoices Hebrew (請求書 - ヘブライ語) - ML パッケージ
- InvoicesIndia (請求書 - インド) - ML パッケージ
- InvoicesJapan (請求書 - 日本) - ML パッケージ
- Invoices Shipping (船積送り状) - ML パッケージ
- Packing Lists (梱包明細書) - ML パッケージ
- Payslips (給与明細) - ML パッケージ
- Passports (パスポート) - ML パッケージ
- Purchase Orders (発注書) - ML パッケージ
- Receipts (領収書) - ML パッケージ
- RemittanceAdvices (送金通知書) - ML パッケージ
- UB-04 (健康保険請求フォーム) - ML パッケージ
- Utility Bills (公共料金の請求書) - ML パッケージ
- Vehicle Titles (自動車の権利書) - ML パッケージ
- W2 (米国の源泉徴収票) - ML パッケージ
- W9 (米国の納税申告書) - ML パッケージ
- その他のすぐに使える ML パッケージ
- パブリック エンドポイント
- トラフィック制限
- OCR の設定
- パイプライン
- OCR サービス
- サポートされている言語
- ディープ ラーニング
- ライセンス
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。
新しいコンテンツの翻訳は、およそ 1 ~ 2 週間で公開されます。
Document Understanding ガイド
評価パイプライン
評価パイプラインは、トレーニング済みの ML モデルの評価に使用します。
評価パイプラインを次のように設定します。
- [パイプラインの種類] フィールドで [評価の実行] を選択します。
- [パッケージのメジャー バージョンを選択] フィールドで、パッケージのメジャー バージョンを選択します。
- [パッケージのマイナー バージョンを選択] フィールドで、評価するマイナー バージョンを選択します。
- [評価データセットを選択] フィールドで、代表的な評価データセットを選択します。データセットの構造について詳しくは、「データセットの形式」セクションをご覧ください。
- [パラメーターを入力] セクションには、評価パイプラインに関連する、使用できる環境変数が 1 つあります。
eval.redo_ocr
を true に設定すると、パイプラインの実行時に OCR を再実行して、抽出の精度に OCR が与える影響を評価できます。この前提として、ML パッケージの作成時に OCR エンジンが構成されているものとします。- [GPU を有効化] スライダーは既定で無効化されており、パイプラインは CPU で実行されます。評価パイプラインの実行は CPU でのみ行うことを強くお勧めします。
-
パイプラインの実行頻度として、[今すぐ実行]、[時間ベース]、[定期的] のいずれかのオプションを選択します。
- すべてのフィールドを設定したら、[作成] をクリックします。パイプラインが作成されます。
評価パイプラインの場合、[出力] ペインには、次の 2 つのファイルを含む [artifacs]/[eval_metrics] フォルダーも含まれます。
evaluation_default.xlsx
は次の 3 種類のシートを含む Excel スプレッドシートです。- 1 枚目のシートには、標準フィールド、列フィールド、分類フィールドごとに、全体的なスコアとバッチごとのスコアの概要が記載されています。完全に抽出されたドキュメントの割合も、バッチおよびドキュメント全体の両方に対して表示されます。
- 2 枚目のシートには、色分けされた標準フィールドの比較情報が横並びに表示されます。この情報はドキュメントの精度を向上するために役立ちます。最も精度の低いドキュメントが一番上に表示されるため、診断とトラブルシューティングをスムーズに進められます。
- 3 枚目のシートには、色分けされた列フィールドの比較情報が横並びに表示されます。
- Excel ファイル内のスコアはすべて精度スコアを表します。
evaluation_metrics_default.txt
には、予測されたフィールドの F1 スコアが含まれます。