- 概要
- 基本情報
- アクティビティ
- Insights のダッシュボード
- Document Understanding Process
- クイック スタート チュートリアル
- フレームワーク コンポーネント
- ML パッケージ
- 概要
- Document Understanding - ML パッケージ
- DocumentClassifier (ドキュメント分類) - ML パッケージ
- OCR 機能を持つ ML パッケージ
- 1040 (米国の個人所得税申告書) - ML パッケージ
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ML パッケージ
- 1040 Schedule D (米国の個人所得税申告書のスケジュール D) - ML パッケージ
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ML パッケージ
- 1040x (米国の個人所得税修正申告書) - ML パッケージ
- 3949a - ML パッケージ
- 4506T (米国の納税申告証明依頼書) - ML パッケージ
- 709 (米国の贈与税申告書) - ML パッケージ
- 941x (米国の雇用主による四半期連邦税修正申告書) - ML パッケージ
- 9465 (米国の分割納付申請書) - ML パッケージ
- ACORD131 (アンブレラ/エクセス保険) - ML パッケージ
- ACORD140 (商業保険申込書の財物補償条項) - ML パッケージ
- ACORD25 (賠償責任保険証明書) - ML パッケージ
- Bank Statements (銀行預金残高証明書) - ML パッケージ
- BillsOfLading (船荷証券) - ML パッケージ
- Certificate of Incorporation (会社存在証明書) - ML パッケージ
- Certificate of Origin (原産地証明書) - ML パッケージ
- Checks (小切手) - ML パッケージ
- Children's Product Certificate (子供向け製品証明書) - ML パッケージ
- CMS 1500 (米国の医療保険請求フォーム) - ML パッケージ
- EU Declaration of Conformity (EU 適合宣言書) - ML パッケージ
- Financial Statements (財務諸表) - ML パッケージ
- FM1003 (米国の統一住宅ローン申請書) - ML パッケージ
- I9 (米国の就労資格証明書) - ML パッケージ
- ID Cards (ID カード) - ML パッケージ
- Invoices (請求書) - ML パッケージ
- InvoicesAustralia (請求書 - オーストラリア) - ML パッケージ
- InvoicesChina (請求書 - 中国) - ML パッケージ
- Invoices Hebrew (請求書 - ヘブライ語) - ML パッケージ
- InvoicesIndia (請求書 - インド) - ML パッケージ
- InvoicesJapan (請求書 - 日本) - ML パッケージ
- Invoices Shipping (船積送り状) - ML パッケージ
- Packing Lists (梱包明細書) - ML パッケージ
- Payslips (給与明細) - ML パッケージ
- Passports (パスポート) - ML パッケージ
- Purchase Orders (発注書) - ML パッケージ
- Receipts (領収書) - ML パッケージ
- RemittanceAdvices (送金通知書) - ML パッケージ
- UB-04 (健康保険請求フォーム) - ML パッケージ
- Utility Bills (公共料金の請求書) - ML パッケージ
- Vehicle Titles (自動車の権利書) - ML パッケージ
- W2 (米国の源泉徴収票) - ML パッケージ
- W9 (米国の納税申告書) - ML パッケージ
- その他のすぐに使える ML パッケージ
- パブリック エンドポイント
- トラフィック制限
- OCR の設定
- パイプライン
- OCR サービス
- サポートされている言語
- ディープ ラーニング
- ライセンス
データセット診断
新しいモデルをゼロからトレーニングするのは、ときに非常に手間のかかる作業です。
データセット診断機能では、モデルをトレーニングして適切な精度を得るために必要な手順に関するフィードバックやヒントが提供されるため、効果的なデータセットを構築できます。
データセット診断ツールは Document Manager の管理バーにあり、新しいモデルのトレーニング プロセス全体を通して視覚的かつ文字によるガイダンスを提供します。
管理バーに表示されるデータセットのステータス レベルには、以下の 3 種類があります。
- 赤 - ラベル付けされたトレーニング データの追加が必要です。
- オレンジ - ラベル付けされたトレーニング データの追加が推奨されます。
- 緑 - ラベル付けされたトレーニング データが必要量に達しています。
セッションでフィールドが作成されていない場合は、データセットのステータス レベルは灰色になります。
各ステータスの詳細は、データセット診断のポップアップ メニューで確認できます。[データセット診断] ボタンをクリックして開きます。
モデルのトレーニングに使用されるドキュメントに関する情報、インポートされたページの総数、およびラベル付けされたページの総数が表示されます。
色分けされたステータス バーの区切りは、モデルのトレーニングに必要なラベル付けされたページの推奨数と、データセット (ラベル付けされたデータとラベル付けされていないデータを含む) の実際のステータスによって決定されます。ステータス バーの色の上でホバーすると、各ステータスに関する追加情報がツールチップに表示されます。
[データセット] タブの数値はトレーニング セッションの標準フィールドと項目フィールドの数に基づいて計算されます。
- 赤 - モデルをトレーニングするには、ラベル付けされたデータをデータセットに追加する必要があります。
- オレンジ - トレーニングするモデルの精度を向上するには、ラベル付けされたデータの追加が推奨されます。現状のデータのまま続行することもできますが、精度のレベルは期待されるほど高くありません。
- 緑 - データセットには、適切なトレーニングを行い正確な情報を抽出するのに十分な量のラベル付けされたデータがあります。
ラベル付けされた各フィールドに関する情報が表示されます。具体的には、ラベルのタグ付けが済んでいるトレーニング ページの総数、ラベル付けされたフィールドがある、評価されたドキュメントの総数、および現在のトレーニング セットのステータスを確認できます。
- フィールド - ラベル付けされたフィールドの名前です。
- トレーニング ページ - このフィールドがラベル付けされている、トレーニング セットと検証セットのページ数です。
- 評価ドキュメント - このフィールドがラベル付けされている、評価セットに含まれるドキュメントの数です。
- ステータス - 各フィールドのステータスです。 赤、オレンジ、緑の 3 つのオプションでマークされます。
[ステータス] バーのオプションは次のとおりです。
- 赤 - フィールドに関するデータが不足しており、追加のラベル付けが必要です。
- オレンジ - 結果の関連性を高めるには、追加のページをラベル付けする必要があります。
- 緑色 - 結果の関連性を高めるのに十分な数のラベル付けされたページがあります。
[更新] と [閉じる] ボタンは両方のタブに適用されます。つまり、[データセット] タブで [更新] ボタンをクリックすると、[フィールド] タブも更新されます。
- 更新 - データセットの合計ページ数またはラベル付きページ数を変更した後に情報を更新するにはこのオプションを使用します。このポップアップ メニューは、数分ごとに両方のタブが同時に自動的に更新されます。この機能は自動更新のタイミング以外で更新する場合に使用します。
- 閉じる - 必要な情報の収集が完了したら、[閉じる] ボタンをクリックしてメニューを閉じます。どのタブでクリックしても、ポップアップ メニュー全体が閉じます。
データセットの計算機能では、以下のフィールドを変更できます。
- すぐに使えるドキュメントの種類
- 言語の数
- レイアウトの数
[計算機能] タブの以下のフィールドは読み取り専用です。これらの値は、使用されているすぐに使えるドキュメントの種類と現在のスキーマ フィールドの共通部分を求めることで決定されます。
- すぐに使える標準フィールド
- すぐに使える列フィールド
- すぐに使える分類フィールド
前述のフィールドのいずれかを変更すると、データセットの推奨サイズに影響します。現在開いているポップアップの [データセット] タブが更新され、新しい推奨サイズに基づいて緑/黄/赤のステータスに変わります。変更を保存すると、全体的なデータセット診断インジケーターで新しい [データセット] タブの健全性が考慮されます。
たとえば、ドキュメントの種類を最初に作成したときに、[すぐに使えるドキュメントの種類] フィールドで [請求書] を選択したとします。最初に選択した種類を他の種類 ([領収書] など) に変更すると、両方のドキュメントの種類の情報がデータセットに融合され、選択した両方の種類 (請求書と領収書) に共通する情報が表示されます。
一方のモデルにのみ存在するフィールドがある場合、そのフィールドは [カスタムの標準フィールド] または [カスタムの列フィールド] に表示されます。この変更は標準フィールドと分類フィールドの両方に適用されるためです。