- 概要
- 基本情報
- Activities (アクティビティ)
- Insights のダッシュボード
- Document Understanding Process
- クイック スタート チュートリアル
- フレームワーク コンポーネント
- 詳細
- 概要
- Document Understanding - ML パッケージ
- DocumentClassifier (ドキュメント分類) - ML パッケージ
- OCR 機能を持つ ML パッケージ
- 1040 (米国の個人所得税申告書) - ML パッケージ
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ML パッケージ
- 1040 Schedule D (米国の個人所得税申告書のスケジュール D) - ML パッケージ
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ML パッケージ
- 1040x (米国の個人所得税修正申告書) - ML パッケージ
- 3949a - ML パッケージ
- 4506T (米国の納税申告証明依頼書) - ML パッケージ
- 709 (米国の贈与税申告書) - ML パッケージ
- 941x (米国の雇用主による四半期連邦税修正申告書) - ML パッケージ
- 9465 (米国の分割納付申請書) - ML パッケージ
- ACORD125 (企業向け保険契約申込書) - ML パッケージ
- ACORD126 (企業総合賠償責任保険) - ML パッケージ
- ACORD131 (アンブレラ/エクセス保険) - ML パッケージ
- ACORD140 (商業保険申込書の財物補償条項) - ML パッケージ
- ACORD25 (賠償責任保険証明書) - ML パッケージ
- Bank Statements (銀行預金残高証明書) - ML パッケージ
- BillsOfLading (船荷証券) - ML パッケージ
- Certificate of Incorporation (会社存在証明書) - ML パッケージ
- Certificate of Origin (原産地証明書) - ML パッケージ
- Checks (小切手) - ML パッケージ
- Children's Product Certificate (子供向け製品証明書) - ML パッケージ
- CMS 1500 (米国の医療保険請求フォーム) - ML パッケージ
- EU Declaration of Conformity (EU 適合宣言書) - ML パッケージ
- Financial Statements (財務諸表) - ML パッケージ
- FM1003 (米国の統一住宅ローン申請書) - ML パッケージ
- I9 (米国の就労資格証明書) - ML パッケージ
- ID Cards (ID カード) - ML パッケージ
- Invoices (請求書) - ML パッケージ
- InvoicesAustralia (請求書 - オーストラリア) - ML パッケージ
- InvoicesChina (請求書 - 中国) - ML パッケージ
- Invoices Hebrew (請求書 - ヘブライ語) - ML パッケージ
- InvoicesIndia (請求書 - インド) - ML パッケージ
- InvoicesJapan (請求書 - 日本) - ML パッケージ
- Invoices Shipping (船積送り状) - ML パッケージ
- Packing Lists (梱包明細書) - ML パッケージ
- Payslips (給与明細) - ML パッケージ
- Passports (パスポート) - ML パッケージ
- Purchase Orders (発注書) - ML パッケージ
- Receipts (領収書) - ML パッケージ
- RemittanceAdvices (送金通知書) - ML パッケージ
- UB-04 (健康保険請求フォーム) - ML パッケージ
- Utility Bills (公共料金の請求書) - ML パッケージ
- Vehicle Titles (自動車の権利書) - ML パッケージ
- W2 (米国の源泉徴収票) - ML パッケージ
- W9 (米国の納税申告書) - ML パッケージ
- その他のすぐに使える ML パッケージ
- パブリック エンドポイント
- トラフィック制限
- OCR の設定
- パイプライン
- OCR サービス
- サポートされている言語
- ディープ ラーニング
- データおよびセキュリティ
- ライセンスと請求ロジック

Document Understanding classic user guide
インテリジェント キーワード分類器
インテリジェント キーワード分類器とは
The Intelligent Keyword Classifier is a classifier that uses the word vector it learns from files of certain document types to perform document classification.
このアルゴリズムは、同じドキュメントの種類に対してコンテンツを繰り返すという概念を基に構築されており、ドキュメントの種類にはそれらのドキュメントの種類で通常発生する一連の単語があることを前提としています。これにより、ベクトル類似度の計算が可能になっています。
ファイルをドキュメントの種類に分類する際、インテリジェント キーワード分類器は以下を行います。
- ファイルが最も類似する単語ベクトルを検索します。
- 最もスコアが高いドキュメントの種類と、元になる主な一致単語を報告します。
インテリジェント キーワード分類器 にはファイル分割機能もあるため、特定のファイルの別個のページ範囲に対して複数のクラスを報告できます。
キーワード ベースの分類器と異なり、インテリジェント キーワード分類器をトレーニングする際にドキュメント内の参照を手動で選択する必要はありません。このような参照をトレーニング時に指定しても無視されます。
使用すべきタイミング
以下の場合、この分類器の使用を検討する必要があります。
- 単一ファイルに 1 つ以上のドキュメントの種類が含まれる場合
- コンテンツに関する限り、ドキュメントの種類を比較的容易に区別できる場合
注:
Starting with version 6.9.0, the splitting performance for the Intelligent Keyword Classifier activity has been improved. For optimized splitting performance, use version 6.9.0 or higher.
特別な要件
You need to use your Automation CloudTM Document UnderstandingTM API Key, or host your own instance of the Intelligent Keyword Classifier in AI Center on-prem, to use this classifier.
トレーニング方法
Place the Intelligent Keyword Classifier Trainer activity in a Train Classifiers Scope, and configure it accordingly.
並行して実行される複数のトレーニングにおいて、トレーニング ファイルの整合性をアクティビティ レベルで確保することはできません。この問題の 2 つの解決策が、Document Understanding Process (Studio テンプレート) で提供されています。どちらの解決策も、トラフィック制御によるものです。
- ファイルをロックする (プロセス内で既定で実行): 拡張子
.lockを使用してファイル名を変更し、ファイルを修正後に保存します。次に、再度ファイル名を変更し、拡張子.lockを削除します。 - 特殊キューを手動で設定する: Orchestrator 内に空のキューを作成し、プロジェクトの 2 つのアクティビティを統合します。
For more information on how to train a Classifier, check this page that describes the process of using the Manage Learning wizard.