- 基本情報
- フレームワーク コンポーネント
- AI Center での Document Understanding
- パイプライン
- ML パッケージ
- データ マネージャー (Data Manager)
- OCR サービス
- ライセンス
- 参照
キーワード ベースの分類器
キーワード ベースの分類器は、ドキュメントの分類を実行するために、特定のファイル内で繰り返される文字列シーケンスを検索する簡易な分類器です。
このアルゴリズムは、ドキュメントのタイトルの概念を基に構築されており、タイトルを持つドキュメントの種類は、それらのタイトルのドキュメントでの表示方法にそれほど違いがないことを前提としています。
ファイルをドキュメントの種類に分類する際、キーワード ベースの分類器は以下を行います。
- 学習データから、タクソノミーのドキュメントの種類に該当する、最も一致する文字列または文字列コレクションを検索します。信頼度は以下に基づいて計算されます。
- ドキュメントの先頭にどれだけ一致しているか
- Knowledge Workers によって一致が確認され、学習データで強化された回数
- 最もスコアが高いドキュメントの種類と、元になる一致設定を報告します。
キーワード ベースの分類器は、単一の文字列エントリ (分類器が使用している学習データで、1 つのエントリと見なされる 1 つの文字列) または複数の文字列を含むエントリ (1 つのエントリを構成する 2 つ以上の文字列) を使用できます。複数の文字列の場合、分類器は各文字列に個別にマッチング アルゴリズムを適用してから、特定された一致の信頼度の単純な平均値を計算します。
以下の場合、この分類器の使用を検討する必要があります。
- ファイルに含まれるドキュメントの種類は 1 つだけで、ファイルの分割が不要な場合。
- ファイルの最初の 3 ページに、ドキュメントの種類に関連する証拠が含まれる場合。
キーワード ベースの分類器は、設計時にアクティビティの 学習を管理ウィザードにアクセスするだけで設定できます。このウィザードは、ドキュメント分類トレーニング フェーズで収集されたデータをレビューする際にも使用できます。それには、更新されたラーニング ファイルのパスでウィザードを開きます。
このウィザードを使用すると、このアクティビティでドキュメントの種類を識別するために使用されるキーワードを設定および管理できます。ファイル パスを編集する必要性に合わせて作成されました。代わりに変数付きの学習データ パラメーターが使用される場合、特定のファイル パスを編集するか、この操作を中止するかを確認されます。
ウィザードには、タクソノミーで定義した数のドキュメントの種類カテゴリがあります。ドキュメントの種類ごとに 1 つまたは複数のキーワードを追加できます。このアクティビティは特定のドキュメントのキーワードを学習し、後でこれらのルールに基づいて特定の種類のドキュメントを識別および分類することができます。
""
(引用符) で囲まれた文字列として入力する必要があり、単一または複数の値を追加できます。
- [新しいキーワード セットを追加] ボタンをクリックすると、そのカテゴリに余分なフィールドを追加します。
- ボタンをクリックすると、フィールドとそのキーワードが削除されます。
-
ウィザードの設定を保存するには、[保存] ボタンをクリックします。追加されたすべての値は、プロジェクトの
.json
ファイルにあります。注: キーワードを管理 ウィザードのキーワードの一部として入力された二重引用符は、C# フレーバーのプロジェクトであっても、Visual Basic の規則 (二重二重引用符) に従い常にエスケープされます。
[キーワード ベースの分類器トレーナー] アクティビティを [分類器トレーニング スコープ] 内に配置して、適宜設定します。
詳細については、「ドキュメント分類トレーニング」をご覧ください。