- 概要
- 基本情報
- Activities (アクティビティ)
- Insights のダッシュボード
- Document Understanding Process
- クイック スタート チュートリアル
- フレームワーク コンポーネント
- 詳細
- 概要
- Document Understanding - ML パッケージ
- DocumentClassifier (ドキュメント分類) - ML パッケージ
- OCR 機能を持つ ML パッケージ
- 1040 (米国の個人所得税申告書) - ML パッケージ
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ML パッケージ
- 1040 Schedule D (米国の個人所得税申告書のスケジュール D) - ML パッケージ
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ML パッケージ
- 1040x (米国の個人所得税修正申告書) - ML パッケージ
- 3949a - ML パッケージ
- 4506T (米国の納税申告証明依頼書) - ML パッケージ
- 709 (米国の贈与税申告書) - ML パッケージ
- 941x (米国の雇用主による四半期連邦税修正申告書) - ML パッケージ
- 9465 (米国の分割納付申請書) - ML パッケージ
- ACORD125 (企業向け保険契約申込書) - ML パッケージ
- ACORD126 (企業総合賠償責任保険) - ML パッケージ
- ACORD131 (アンブレラ/エクセス保険) - ML パッケージ
- ACORD140 (商業保険申込書の財物補償条項) - ML パッケージ
- ACORD25 (賠償責任保険証明書) - ML パッケージ
- Bank Statements (銀行預金残高証明書) - ML パッケージ
- BillsOfLading (船荷証券) - ML パッケージ
- Certificate of Incorporation (会社存在証明書) - ML パッケージ
- Certificate of Origin (原産地証明書) - ML パッケージ
- Checks (小切手) - ML パッケージ
- Children's Product Certificate (子供向け製品証明書) - ML パッケージ
- CMS 1500 (米国の医療保険請求フォーム) - ML パッケージ
- EU Declaration of Conformity (EU 適合宣言書) - ML パッケージ
- Financial Statements (財務諸表) - ML パッケージ
- FM1003 (米国の統一住宅ローン申請書) - ML パッケージ
- I9 (米国の就労資格証明書) - ML パッケージ
- ID Cards (ID カード) - ML パッケージ
- Invoices (請求書) - ML パッケージ
- InvoicesAustralia (請求書 - オーストラリア) - ML パッケージ
- InvoicesChina (請求書 - 中国) - ML パッケージ
- Invoices Hebrew (請求書 - ヘブライ語) - ML パッケージ
- InvoicesIndia (請求書 - インド) - ML パッケージ
- InvoicesJapan (請求書 - 日本) - ML パッケージ
- Invoices Shipping (船積送り状) - ML パッケージ
- Packing Lists (梱包明細書) - ML パッケージ
- Payslips (給与明細) - ML パッケージ
- Passports (パスポート) - ML パッケージ
- Purchase Orders (発注書) - ML パッケージ
- Receipts (領収書) - ML パッケージ
- RemittanceAdvices (送金通知書) - ML パッケージ
- UB-04 (健康保険請求フォーム) - ML パッケージ
- Utility Bills (公共料金の請求書) - ML パッケージ
- Vehicle Titles (自動車の権利書) - ML パッケージ
- W2 (米国の源泉徴収票) - ML パッケージ
- W9 (米国の納税申告書) - ML パッケージ
- その他のすぐに使える ML パッケージ
- パブリック エンドポイント
- トラフィック制限
- OCR の設定
- パイプライン
- OCR サービス
- サポートされている言語
- ディープ ラーニング
- データおよびセキュリティ
- ライセンスと請求ロジック

Document Understanding classic user guide
パイプラインについて
The ability to train extractors and classifiers is now more convenient be leveraging the One Click Extraction and the One Click Classification features.
Document Understanding ML パッケージは、以下の 3 種類のパイプラインすべてを実行できます。
パイプライン実行が完了すると、それに関連付けられた出力とログが得られます。この情報を確認するには、左側のサイドバーにある [パイプライン] タブでパイプラインをクリックし、パイプライン ビューを開きます。このビューに含まれる項目は以下のとおりです。
- パイプラインの詳細: 種類、ML パッケージの名前とバージョン、データセット、GPU の使用状況、パラメーター、実行時間などが表示されます。
- [出力] ペイン: パイプラインの詳細を要約した
_results.jsonファイルが必ず含まれます。 - [ログ] ページ: 左側のサイドバーにある [ML ログ] タブでもログを取得できます。
すべてのパイプラインは、次の 3 つの異なるファイルでスコアを返します。
evaluation_scores_<package name>.txt- このファイルには、すべてのフィールドの精度スコアが含まれます。evaluation_<package name>.xlsx- このファイルには、フィールドおよびバッチごとの詳細な精度の内訳と、横並びに表示された各フィールドの比較情報が含まれます。見逃したフィールド (赤) または部分的に一致したフィールド (黄色) が色で強調表示されます。evaluation_F1_scores.txt- このファイルには、すべてのフィールドの F1 スコアが含まれます。
精度の値は、一致数を予測総数で割ることで得られます。一致した場合は重み 1 が付加され、部分一致の場合は、予測と真の値の間のレーベンシュタイン距離に対応する重みが付加されます。
レーベンシュタイン距離を使用した部分一致は、コンテンツの種類が文字列のフィールドに対する既定のスコアリング方法です。その他すべてのコンテンツの種類 (日付、数値、ID 番号、電話番号) では、完全一致のスコアリングのみが使用されます。
文字列フィールドの場合は、Document Understanding の [ドキュメントの種類] ビューの、フィールド設定ダイアログの [詳細設定] タブでこの設定を変更できます。
たとえば、評価データセットに 100 個のドキュメントがあり、Purchase Order Number というフィールドがドキュメントの半分に表示され、そのうちの 40 個が正しく、10 個がレーベンシュタイン距離 0.8 で部分的に正しいとモデルが予測した場合、精度は (40 + 10 x 0.8 + 50)/100 = 98% になります。
フィールドが未入力で、モデルが何も予測しなかった 50 個のドキュメントについても、予測が成功したものとしてカウントされます。
トレーニング パイプラインでは、スコアは検証データセットに対して計算されます。検証データセットは、トレーニング パイプラインで提出された全トレーニング データセットのうち 20% のランダムに選択されたサブセットです。
トレーニング パイプラインまたはフル パイプラインは、以下の操作にも使用できます。
- Fine-tune ML models with data from Validation Station
- Auto-Fine-tune an ML model
注:
Training Pipelines and Full Pipelines support training sets of maximum 18.000 labelled pages.