- 概要
- 基本情報
- アクティビティ
- Insights のダッシュボード
- Document Understanding Process
- クイック スタート チュートリアル
- フレームワーク コンポーネント
- ML パッケージ
- 概要
- Document Understanding - ML パッケージ
- DocumentClassifier (ドキュメント分類) - ML パッケージ
- OCR 機能を持つ ML パッケージ
- 1040 (米国の個人所得税申告書) - ML パッケージ
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ML パッケージ
- 1040 Schedule D (米国の個人所得税申告書のスケジュール D) - ML パッケージ
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ML パッケージ
- 1040x (米国の個人所得税修正申告書) - ML パッケージ
- 3949a - ML パッケージ
- 4506T (米国の納税申告証明依頼書) - ML パッケージ
- 709 (米国の贈与税申告書) - ML パッケージ
- 941x (米国の雇用主による四半期連邦税修正申告書) - ML パッケージ
- 9465 (米国の分割納付申請書) - ML パッケージ
- ACORD131 (アンブレラ/エクセス保険) - ML パッケージ
- ACORD140 (商業保険申込書の財物補償条項) - ML パッケージ
- ACORD25 (賠償責任保険証明書) - ML パッケージ
- Bank Statements (銀行預金残高証明書) - ML パッケージ
- BillsOfLading (船荷証券) - ML パッケージ
- Certificate of Incorporation (会社存在証明書) - ML パッケージ
- Certificate of Origin (原産地証明書) - ML パッケージ
- Checks (小切手) - ML パッケージ
- Children's Product Certificate (子供向け製品証明書) - ML パッケージ
- CMS 1500 (米国の医療保険請求フォーム) - ML パッケージ
- EU Declaration of Conformity (EU 適合宣言書) - ML パッケージ
- Financial Statements (財務諸表) - ML パッケージ
- FM1003 (米国の統一住宅ローン申請書) - ML パッケージ
- I9 (米国の就労資格証明書) - ML パッケージ
- ID Cards (ID カード) - ML パッケージ
- Invoices (請求書) - ML パッケージ
- InvoicesAustralia (請求書 - オーストラリア) - ML パッケージ
- InvoicesChina (請求書 - 中国) - ML パッケージ
- Invoices Hebrew (請求書 - ヘブライ語) - ML パッケージ
- InvoicesIndia (請求書 - インド) - ML パッケージ
- InvoicesJapan (請求書 - 日本) - ML パッケージ
- Invoices Shipping (船積送り状) - ML パッケージ
- Packing Lists (梱包明細書) - ML パッケージ
- Payslips (給与明細) - ML パッケージ
- Passports (パスポート) - ML パッケージ
- Purchase Orders (発注書) - ML パッケージ
- Receipts (領収書) - ML パッケージ
- RemittanceAdvices (送金通知書) - ML パッケージ
- UB-04 (健康保険請求フォーム) - ML パッケージ
- Utility Bills (公共料金の請求書) - ML パッケージ
- Vehicle Titles (自動車の権利書) - ML パッケージ
- W2 (米国の源泉徴収票) - ML パッケージ
- W9 (米国の納税申告書) - ML パッケージ
- その他のすぐに使える ML パッケージ
- パブリック エンドポイント
- トラフィック制限
- OCR の設定
- パイプライン
- OCR サービス
- サポートされている言語
- ディープ ラーニング
- ライセンス
パイプラインについて
Document UnderstandingTM ML パッケージは、以下の 3 種類のパイプラインすべてを実行できます。
パイプライン実行が完了すると、それに関連付けられた出力とログが得られます。この情報を確認するには、左側のサイドバーにある [パイプライン] タブでパイプラインをクリックし、パイプライン ビューを開きます。このビューに含まれる項目は以下のとおりです。
- パイプラインの詳細: 種類、ML パッケージの名前とバージョン、データセット、GPU の使用状況、パラメーター、実行時間などが表示されます。
- [出力] ペイン: パイプラインの詳細を要約した
_results.json
ファイルが必ず含まれます。 - [ログ] ページ: 左側のサイドバーにある [ML ログ] タブでもログを取得できます。
evaluation_scores_<package name>.txt
- このファイルには、すべてのフィールドの精度スコアが含まれます。evaluation_<package name>.xlsx
- このファイルには、フィールドおよびバッチごとの詳細な精度の内訳と、横並びに表示された各フィールドの比較情報が含まれます。見逃したフィールド (赤) または部分的に一致したフィールド (黄色) が色で強調表示されます。evaluation_F1_scores.txt
- このファイルには、すべてのフィールドの F1 スコアが含まれます。
レーベンシュタイン距離を使用した部分一致は、コンテンツの種類が文字列のフィールドに対する既定のスコアリング方法です。その他すべてのコンテンツの種類 (日付、数値、ID 番号、電話番号) では、完全一致のスコアリングのみが使用されます。
文字列フィールドの場合は、Document Understanding の [ドキュメントの種類] ビューの、フィールド設定ダイアログの [詳細設定] タブでこの設定を変更できます。
たとえば、評価データセットに 100 個のドキュメントがあり、Purchase Order Number というフィールドがドキュメントの半分に表示され、そのうちの 40 個が正しく、10 個がレーベンシュタイン距離 0.8 で部分的に正しいとモデルが予測した場合、精度は (40 + 10 x 0.8 + 50)/100 = 98% になります。
フィールドが未入力で、モデルが何も予測しなかった 50 個のドキュメントについても、予測が成功したものとしてカウントされます。
トレーニング パイプラインでは、スコアは検証データセットに対して計算されます。検証データセットは、トレーニング パイプラインで提出された全トレーニング データセットのうち 20% のランダムに選択されたサブセットです。
トレーニング パイプラインまたはフル パイプラインは、以下の操作にも使用できます。
トレーニング パイプラインとフル パイプラインは、ラベル付けされた最大 18,000 ページのトレーニング セットをサポートします。