- 概要
- 基本情報
- モデルを構築する
- モデルを使用する
- ML パッケージ
- 1040 (米国の個人所得税申告書) - ML パッケージ
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ML パッケージ
- 1040 Schedule D (米国の個人所得税申告書のスケジュール D) - ML パッケージ
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ML パッケージ
- 1040x (米国の個人所得税修正申告書) - ML パッケージ
- 3949a - ML パッケージ
- 4506T (米国の納税申告証明依頼書) - ML パッケージ
- 709 (米国の贈与税申告書) - ML パッケージ
- 941x (米国の雇用主による四半期連邦税修正申告書) - ML パッケージ
- 9465 (米国の分割納付申請書) - ML パッケージ
- ACORD126 (企業総合賠償責任保険) - ML パッケージ
- ACORD131 (アンブレラ/エクセス保険) - ML パッケージ
- ACORD140 (商業保険申込書の財物補償条項) - ML パッケージ
- ACORD25 (賠償責任保険証明書) - ML パッケージ
- Bank Statements (銀行預金残高証明書) - ML パッケージ
- BillsOfLading (船荷証券) - ML パッケージ
- Certificate of Incorporation (会社存在証明書) - ML パッケージ
- Certificate of Origin (原産地証明書) - ML パッケージ
- Checks (小切手) - ML パッケージ
- Children's Product Certificate (子供向け製品証明書) - ML パッケージ
- CMS 1500 (米国の医療保険請求フォーム) - ML パッケージ
- EU Declaration of Conformity (EU 適合宣言書) - ML パッケージ
- Financial Statements (財務諸表) - ML パッケージ
- FM1003 (米国の統一住宅ローン申請書) - ML パッケージ
- I9 (米国の就労資格証明書) - ML パッケージ
- ID Cards (ID カード) - ML パッケージ
- Invoices (請求書) - ML パッケージ
- InvoicesAustralia (請求書 - オーストラリア) - ML パッケージ
- InvoicesChina (請求書 - 中国) - ML パッケージ
- Invoices Hebrew (請求書 - ヘブライ語) - ML パッケージ
- InvoicesIndia (請求書 - インド) - ML パッケージ
- InvoicesJapan (請求書 - 日本) - ML パッケージ
- Invoices Shipping (船積送り状) - ML パッケージ
- Packing Lists (梱包明細書) - ML パッケージ
- Payslips (給与明細) - ML パッケージ
- Passports (パスポート) - ML パッケージ
- Purchase Orders (発注書) - ML パッケージ
- Receipts (領収書) - ML パッケージ
- RemittanceAdvices (送金通知書) - ML パッケージ
- UB-04 (健康保険請求フォーム) - ML パッケージ
- Utility Bills (公共料金の請求書) - ML パッケージ
- Vehicle Titles (自動車の権利書) - ML パッケージ
- W2 (米国の源泉徴収票) - ML パッケージ
- W9 (米国の納税申告書) - ML パッケージ
- パブリック エンドポイント
- サポートされている言語
- Insights のダッシュボード
- データおよびセキュリティ
- ライセンス
- 使い方
ドキュメントのアノテーションを行う
プロジェクトが正常に作成され、ドキュメントを特定のドキュメントの種類にアップロードすると、ドキュメントに自動的にアノテーションが行われます。 これは、ドキュメントの種類のスキーマに基づいて、 生成モデルと 特殊なモデルを組み合わせて使用します。 このスキーマにより、特定のドキュメントの種類から抽出するフィールドが明確に定義されています。 ドキュメントの種類のスキーマを確認するには、[ アノテーション] ページに移動して [ フィールド ] セクションを確認します。
事前アノテーションはドキュメント内のテキストに下線付きで示され、削除できません。事前アノテーションが間違っていて、特定のフィールドに一致させることができない場合は、無視してかまいません。トレーニング プロセスでは、確認済みのフィールドのみがトレーニングに使用され、下線は考慮されません。
アノテーションを追加で行っていくうちに、事前アノテーション済みの下線部分が徐々に入力内容と一致していきます。下線部分とユーザーがアノテーションを行ったフィールドとの間に最初からほとんど不整合がない場合もあります。ただし、さらにアノテーションを行ってモデルが改善されていくと、下線部分は、ユーザーが提供したデータとより正確に一致するようになります。
次の画像では、配送先住所の事前アノテーションに誤りがあり、人名まで含まれています。
これを修正するには、配送先住所を確認するだけです。名前に関連する下線付きのテキストを削除する必要はありません。アノテーションを続行してこのようなエラーを修正していくと、下線付きのテキストが確認済みのフィールドと一致しないケースが減っていきます。
- カスタムのドキュメント タイプでは、アノテーションが自動的に行われません。カスタムのドキュメント タイプのドキュメント部分に手動で事前ラベル付けする必要があります。
- モデルのトレーニングをトリガーするには、40 以上の操作が必要です。たとえば、ドキュメントが 20 個ある場合、ドキュメント 1 個につき 2 つ以上のフィールドに注釈を付ける必要があるため、合計で 40 の操作が必要になります。
ドキュメントをすべてアップロードして事前アノテーションが完了したら、事前アノテーション済みのフィールドを検証または変更することが目標になります。すべてのフィールドのアノテーションが正確に行われたドキュメントの場合は、[確認] を選択して、すべてのフィールドを一度に承認します。ドキュメントの確認が完了すると、ドキュメント リストで緑色の盾のマークが付きます。
ドキュメントが部分的にしか確認されていない場合は、ドキュメント リストで空の盾の記号が付きます。この記号は、この特定のドキュメントのアノテーション プロセスが進行中であることを示します。最終的な目標は、すべてのドキュメントを確認済みにすることです。
- 事前アノテーションは正確であり、検証する必要がある
- 事前アノテーションが間違っていて、フィールドがドキュメントに存在している。
- 事前アノテーションに誤りがあり、フィールドがドキュメントに存在しない
- 事前アノテーションが行われていない。
ドキュメントの種類の設定は、[アノテーションを行う] ビューから変更できます。
そのためには、ドキュメントの種類名の右側にある 3 点リーダー メニューのアイコン ⁝ をクリックして、[設定] を選択します。
- ベース モデル: [推奨されるアクション] に表示されるデータセットのサイズの推定値は、トレーニングに使用されるベース モデルによって異なります。対象のドキュメントの種類に最も類似したベース モデルを使用すると、必要とされるアノテーション作業量が減ります。
- 言語の数: [推奨されるアクション] に表示されるデータセットのサイズの推定値は、データセットに含まれる言語の数によって異なります。一般には、言語の数が多いほど、より多くのデータのアノテーションを行う必要があります。