- 概要
- 基本情報
- アクティビティ
- Insights のダッシュボード
- Document Understanding Process
- クイック スタート チュートリアル
- フレームワーク コンポーネント
- ML パッケージ
- 概要
- Document Understanding - ML パッケージ
- DocumentClassifier (ドキュメント分類) - ML パッケージ
- OCR 機能を持つ ML パッケージ
- 1040 (米国の個人所得税申告書) - ML パッケージ
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ML パッケージ
- 1040 Schedule D (米国の個人所得税申告書のスケジュール D) - ML パッケージ
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ML パッケージ
- 1040x (米国の個人所得税修正申告書) - ML パッケージ
- 3949a - ML パッケージ
- 4506T (米国の納税申告証明依頼書) - ML パッケージ
- 709 (米国の贈与税申告書) - ML パッケージ
- 941x (米国の雇用主による四半期連邦税修正申告書) - ML パッケージ
- 9465 (米国の分割納付申請書) - ML パッケージ
- ACORD131 (アンブレラ/エクセス保険) - ML パッケージ
- ACORD140 (商業保険申込書の財物補償条項) - ML パッケージ
- ACORD25 (賠償責任保険証明書) - ML パッケージ
- Bank Statements (銀行預金残高証明書) - ML パッケージ
- BillsOfLading (船荷証券) - ML パッケージ
- Certificate of Incorporation (会社存在証明書) - ML パッケージ
- Certificate of Origin (原産地証明書) - ML パッケージ
- Checks (小切手) - ML パッケージ
- Children's Product Certificate (子供向け製品証明書) - ML パッケージ
- CMS 1500 (米国の医療保険請求フォーム) - ML パッケージ
- EU Declaration of Conformity (EU 適合宣言書) - ML パッケージ
- Financial Statements (財務諸表) - ML パッケージ
- FM1003 (米国の統一住宅ローン申請書) - ML パッケージ
- I9 (米国の就労資格証明書) - ML パッケージ
- ID Cards (ID カード) - ML パッケージ
- Invoices (請求書) - ML パッケージ
- InvoicesAustralia (請求書 - オーストラリア) - ML パッケージ
- InvoicesChina (請求書 - 中国) - ML パッケージ
- Invoices Hebrew (請求書 - ヘブライ語) - ML パッケージ
- InvoicesIndia (請求書 - インド) - ML パッケージ
- InvoicesJapan (請求書 - 日本) - ML パッケージ
- Invoices Shipping (船積送り状) - ML パッケージ
- Packing Lists (梱包明細書) - ML パッケージ
- Payslips (給与明細) - ML パッケージ
- Passports (パスポート) - ML パッケージ
- Purchase Orders (発注書) - ML パッケージ
- Receipts (領収書) - ML パッケージ
- RemittanceAdvices (送金通知書) - ML パッケージ
- UB-04 (健康保険請求フォーム) - ML パッケージ
- Utility Bills (公共料金の請求書) - ML パッケージ
- Vehicle Titles (自動車の権利書) - ML パッケージ
- W2 (米国の源泉徴収票) - ML パッケージ
- W9 (米国の納税申告書) - ML パッケージ
- その他のすぐに使える ML パッケージ
- パブリック エンドポイント
- トラフィック制限
- OCR の設定
- パイプライン
- OCR サービス
- サポートされている言語
- ディープ ラーニング
- ライセンス
Document Understanding ガイド
キーワード ベースの分類器
キーワード ベースの分類器は、ドキュメントの分類を実行するために、特定のファイル内で繰り返される文字列シーケンスを検索する簡易な分類器です。
このアルゴリズムは、ドキュメントのタイトルの概念を基に構築されており、タイトルを持つドキュメントの種類は、それらのタイトルのドキュメントでの表示方法にそれほど違いがないことを前提としています。
ファイルをドキュメントの種類に分類する際、キーワード ベースの分類器は以下を行います。
-
学習データから、タクソノミーのドキュメントの種類に該当する、最も一致する文字列または文字列コレクションを検索します。信頼度は以下に基づいて計算されます。
- ドキュメントの先頭にどれだけ一致しているか
- Knowledge Workers によって一致が確認され、学習データで強化された回数
- 最もスコアが高いドキュメントの種類と、元になる一致設定を報告します。
キーワード ベースの分類器は、単一の文字列エントリ (分類器が使用している学習データで、1 つのエントリと見なされる 1 つの文字列) または複数の文字列を含むエントリ (1 つのエントリを構成する 2 つ以上の文字列) を使用できます。複数の文字列の場合、分類器は各文字列に個別にマッチング アルゴリズムを適用してから、特定された一致の信頼度の単純な平均値を計算します。
以下の例を見てみましょう。
- エントリに「this is my match」などの単一文字列が含まれる場合、[キーワード ベースの分類器] はこの文字列をドキュメントの種類の一致候補として検索し、評価します (文字列が帰属するドキュメントの種類に応じて)。
- エントリに「this is a match」、「needs more evidence for filtering」、「yet another one」などの 3 つの文字列が含まれる場合、[キーワード ベースの分類器] は 3 つの文字列それぞれを検索して評価してから、一致の信頼度の単純な平均値を計算して報告します。
キーワード セットは、1 行で定義することも、複数行を使用して定義することもできます。1 行で定義されている場合は、指定されたそれぞれのキーワードが検索されます。たとえば、x、y、z をキーワードとして指定すると、x と y と z が検索されます。
複数の行で定義されている場合は、1 行目から順番に最後の行まで、指定されているすべてのキーワードが検索され、最も多くのキーワードに一致している文字列が特定されます。したがって、より多くのキーワードを使用してより多くの一致する文字列を特定すれば、信頼度スコアが上昇します。
以下の場合、この分類器の使用を検討する必要があります。
- ファイルに含まれるドキュメントの種類は 1 つだけで、ファイルの分割が不要な場合。
- ファイルの最初の 3 ページに、ドキュメントの種類に関連する証拠が含まれる場合。
キーワード ベースの分類器を使用するための特別な要件はありません。
分類器のトレーニング方法について詳しくは、学習を管理ウィザードの使用方法について説明しているこちらのページをご覧ください。