document-understanding
2024.10
true
- 概要
- 基本情報
- モデルを構築する
- モデルを使用する
- 詳細
- 1040 (米国の個人所得税申告書) - ML パッケージ
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ML パッケージ
- 1040 Schedule D (米国の個人所得税申告書のスケジュール D) - ML パッケージ
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ML パッケージ
- 1040x (米国の個人所得税修正申告書) - ML パッケージ
- 3949a - ML パッケージ
- 4506T (米国の納税申告証明依頼書) - ML パッケージ
- 709 (米国の贈与税申告書) - ML パッケージ
- 941x (米国の雇用主による四半期連邦税修正申告書) - ML パッケージ
- 9465 (米国の分割納付申請書) - ML パッケージ
- ACORD125 (企業向け保険契約申込書) - ML パッケージ
- ACORD126 (企業総合賠償責任保険) - ML パッケージ
- ACORD131 (アンブレラ/エクセス保険) - ML パッケージ
- ACORD140 (商業保険申込書の財物補償条項) - ML パッケージ
- ACORD25 (賠償責任保険証明書) - ML パッケージ
- Bank Statements (銀行預金残高証明書) - ML パッケージ
- BillsOfLading (船荷証券) - ML パッケージ
- Certificate of Incorporation (会社存在証明書) - ML パッケージ
- Certificate of Origin (原産地証明書) - ML パッケージ
- Checks (小切手) - ML パッケージ
- Children's Product Certificate (子供向け製品証明書) - ML パッケージ
- CMS 1500 (米国の医療保険請求フォーム) - ML パッケージ
- EU Declaration of Conformity (EU 適合宣言書) - ML パッケージ
- Financial Statements (財務諸表) - ML パッケージ
- FM1003 (米国の統一住宅ローン申請書) - ML パッケージ
- I9 (米国の就労資格証明書) - ML パッケージ
- ID Cards (ID カード) - ML パッケージ
- Invoices (請求書) - ML パッケージ
- InvoicesAustralia (請求書 - オーストラリア) - ML パッケージ
- InvoicesChina (請求書 - 中国) - ML パッケージ
- Invoices Hebrew (請求書 - ヘブライ語) - ML パッケージ
- InvoicesIndia (請求書 - インド) - ML パッケージ
- InvoicesJapan (請求書 - 日本) - ML パッケージ
- Invoices Shipping (船積送り状) - ML パッケージ
- Packing Lists (梱包明細書) - ML パッケージ
- Payslips (給与明細) - ML パッケージ
- Passports (パスポート) - ML パッケージ
- Purchase Orders (発注書) - ML パッケージ
- Receipts (領収書) - ML パッケージ
- RemittanceAdvices (送金通知書) - ML パッケージ
- UB-04 (健康保険請求フォーム) - ML パッケージ
- Utility Bills (公共料金の請求書) - ML パッケージ
- Vehicle Titles (自動車の権利書) - ML パッケージ
- W2 (米国の源泉徴収票) - ML パッケージ
- W9 (米国の納税申告書) - ML パッケージ
- パブリック エンドポイント
- サポートされている言語
- Insights のダッシュボード
- データおよびセキュリティ
- ライセンスと請求ロジック
- 使い方
クラシック プロジェクトを移行する
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。
Document Understanding モダン プロジェクト ユーザー ガイド
Last updated 2024年11月11日
クラシック プロジェクトを移行する
AI Center に基づくプロジェクトを移行するには、このページの手順を使用します。 プロジェクトの移行には、主に以下の 2 つの手順があります。
- AI Center に基づくプロジェクトからデータセットをエクスポートします。
- エクスポートしたデータセットをモダン プロジェクトにインポートします。
- 現在、3,000 ページを超えるデータセットのインポートはサポートされていません。最初の 3,000 ページのみが正常にインポートされ、それ以降のページはインポートに失敗します。たとえば、データセットが 2,999 ページで構成されている場合に、4 ページのドキュメントをインポートしようとすると、このプロセスは成功しません。
- バッチ名および対応するバッチ結果は、現在は利用できません。データがバッチに編成されている場合、バッチ結果の情報はまだ表示されません。ただし、情報は保存されています。
データセットがインポートされると、モデルのトレーニングが開始されます。トレーニングの完了後、モデルのスコアが表示されます。モデルの詳細なスコアを確認するには、スコアを選択して、[モデルの詳細なスコア] を選択します。
この操作を行うと [測定] ページに移動し、モデルの詳細なメトリックにアクセスできます。
同じデータセットを使用して ML を 2 回トレーニングすると、モデルのメトリックがわずかに異なることに気付く場合があります。これは、以下のようないくつかの理由で発生する可能性があります。
- 初期化: 機械学習では、最適化アルゴリズムをトリガーするために初期推測が必要な最適化手法を使用します。これらのアルゴリズムは予測不可能な性質であるため、トレーニングごとに初期推測が異なり、さまざまな結果につながる可能性があります。
- ランダムなステート: 一部のアルゴリズムでは、その処理にランダム性を使用します。たとえば、ニューラル ネットワークをトレーニングする場合、確率的勾配降下法やミニバッチ勾配降下法のような手順でランダム性が取り入れられます。そのため、モデルの初期パラメーターとデータセットが同一であっても、実行ごとにモデルのパフォーマンスが異なる場合があります。
- 正則化: 特定のアルゴリズムには、モデルがより小さな重みを維持するよう促進するペナルティ項が含まれています。ランダム性が関係するため、モデルは毎回異なる重みセットで動作する可能性があります。
ただし、このようにわずかな違いがあっても、必ずしもあるモデルに他のモデルと比べて優劣があることを意味するわけではないことに注意することが重要です。メトリックがわずかに異なっていても、非常に大きな違いでない限り、モデルがデータを理解する能力に基本的に変わりはありません。さらに、このプロセスを何度も繰り返して平均を取ると、同様のパフォーマンス メトリックが得られるはずです。
クラシック プロジェクトとモダン プロジェクトのモデルの結果に大きな違いがある場合は、ベース モデルの違いが原因である可能性があります。ベース モデルを変更するには、次の手順に従います。
クラシック プロジェクトでは、さまざまな方法でデータをエクスポートできます。ただし、エクスポートしたデータの種類すべてが、モダン プロジェクトへのインポートに対応しているわけではありません。両方の種類のプロジェクトでモデルの結果を比較するには、[トレーニングと検証セット] でドキュメントをフィルター処理し、[現在の検索結果を選択] を選択してデータセットをエクスポートします。各オプションについて詳しくは、以下の表をご覧ください。
エクスポートの種類 | エクスポートされるデータ | インポートしたデータのこの後の流れ |
---|---|---|
現在の検索結果 | 現在フィルター処理されているデータセットをエクスポートします。これを [トレーニングと検証セット] フィルターと併せて使用します。 | 「トレーニング」としてタグ付けされたドキュメントは、モデルのトレーニングに使用されます。「検証」としてタグ付けされたドキュメントは、モデルのパフォーマンスの測定に使用されます。
ヒント: 2 つのプロジェクトの種類の間でモデルの結果を比較するには、必ずデータセットを「トレーニングと検証セット」としてエクスポートしてインポートします。
|
ラベル付けされたデータすべて | すべてのアノテーション済みのドキュメントをデータセットからエクスポートします。
|
|
スキーマ | フィールドのリストと、そのそれぞれの設定をエクスポートします。 | スキーマが存在しない場合はインポートされます。スキーマがすでに定義されている場合、インポートは失敗します。 |
すべて | アノテーション済みのドキュメントとアノテーション未実施のドキュメントをすべてエクスポートします。 |
|