Document Understanding ガイド

デリバリー:

最終更新日時 2025年2月4日

キーワードベースの分類器

キーワードベースの分類器とは

キーワードベースの分類器は、ドキュメントの分類を実行するために、特定のファイル内で繰り返される文字列シーケンスを検索する簡易な分類器です。

このアルゴリズムは、ドキュメントのタイトルの概念を基に構築されており、タイトルを持つドキュメントの種類は、それらのタイトルのドキュメントでの表示方法にそれほど違いがないことを前提としています。

ファイルをドキュメントの種類に分類する際、キーワードベースの分類器は以下を行います。

学習データから、タクソノミーのドキュメントの種類に該当する、最も一致する文字列または文字列コレクションを検索します。信頼度は以下に基づいて計算されます。
- ドキュメントの先頭にどれだけ一致しているか
- Knowledge Workers によって一致が確認され、学習データで強化された回数
最もスコアが高いドキュメントの種類と、元になる一致設定を報告します。

キーワードベースの分類器は、単一の文字列エントリ (分類器が使用している学習データで、1 つのエントリと見なされる 1 つの文字列) または複数の文字列を含むエントリ (1 つのエントリを構成する 2 つ以上の文字列) を使用できます。複数の文字列の場合、分類器は各文字列に個別にマッチングアルゴリズムを適用してから、特定された一致の信頼度の単純な平均値を計算します。

例

以下の例を見てみましょう。

エントリに「this is my match」などの単一文字列が含まれる場合、キーワードベースの分類器はこの文字列をドキュメントの種類の一致候補として検索し、評価します (文字列が帰属するドキュメントの種類に応じて)。
エントリに「this is a match」、「needs more evidence for filtering」、「yet another one」などの 3 つの文字列が含まれる場合、キーワードベースの分類器は 3 つの文字列それぞれを検索して評価してから、一致の信頼度の単純な平均値を計算して報告します。

キーワードセットは、1 行で定義することも、複数行を使用して定義することもできます。1 行で定義されている場合は、指定されたそれぞれのキーワードが検索されます。たとえば、x、y、z をキーワードとして指定すると、x と y と z が検索されます。

複数の行で定義されている場合は、1 行目から順番に最後の行まで、指定されているすべてのキーワードが検索され、最も多くのキーワードに一致している文字列が特定されます。したがって、より多くのキーワードを使用してより多くの一致する文字列を特定すれば、信頼度スコアが上昇します。

使用すべきタイミング

以下の場合、この分類器の使用を検討する必要があります。

ファイルに含まれるドキュメントの種類は 1 つだけで、ファイルの分割が不要な場合。
ファイルの最初の 3 ページに、ドキュメントの種類に関連する証拠が含まれる場合。

特別な要件

キーワードベースの分類器を使用するための特別な要件はありません。

設計時の設定方法

キーワードベースの分類器は、設計時にアクティビティの 学習を管理ウィザードにアクセスするだけで設定できます。このウィザードは、ドキュメント分類トレーニングフェーズで収集されたデータをレビューする際にも使用できます。それには、更新されたラーニングファイルのパスでウィザードを開きます。

このウィザードを使用すると、このアクティビティでドキュメントの種類を識別するために使用されるキーワードを設定および管理できます。ファイルパスを編集する必要性に合わせて作成されました。代わりに変数付きの学習データパラメーターが使用される場合、特定のファイルパスを編集するか、この操作を中止するかを確認されます。

注: キーワードベースの分類器学習ウィザードは、ファイルパスを編集および構成する場合のみ使用できます。

[キーワードベースの分類器]/[キーワードベースの分類器トレーナー] アクティビティをワークフローに追加します。
.json ファイルのパスを追加して、[キーワードベースの分類器] アクティビティを構成します。
- パスが指定されておらず、[学習の管理] オプションがクリックされると、学習ファイルのパスの入力を確認するポップアップが表示されます。パスが指定されると、ウィザードが開きます。
- .json ファイルではなく変数を追加できますが、ウィザードが LearningData 変数に学習パターンを適用することはできないため、編集できる特定のファイルのパスを要求します。
[学習を管理] オプションをクリックします。
- [ウィザード] ウィンドウが開きます。
パスが指定されておらず、[学習の管理] オプションがクリックされると、学習ファイルのパスを確認するポップアップが表示されます。パスが指定されると、ウィザードが開きます。

注: .json ファイルが使用できない場合でも、新しい .json ファイルの名前をアクティビティに直接追加することができ、.json ファイルが、指定されたフォルダー内に自動的に作成されます。

ウィザードには、タクソノミーで定義した数のドキュメントの種類カテゴリがあります。ドキュメントの種類ごとに 1 つまたは複数のキーワードを追加できます。このアクティビティは特定のドキュメントのキーワードを学習し、後でこれらのルールに基づいて特定の種類のドキュメントを識別および分類することができます。

すべてのエントリは、"" (引用符) で囲まれた文字列として入力する必要があり、単一または複数の値を追加できます。

[新しいキーワードセットを追加] ボタンをクリックすると、そのカテゴリに余分なフィールドを追加します。
ボタンをクリックすると、フィールドとそのキーワードが削除されます。
ウィザードの設定を保存するには、[保存] ボタンをクリックします。追加されたすべての値は、プロジェクトの .json ファイルにあります。
注: キーワードを管理 ウィザードのキーワードの一部として入力された二重引用符は、C# フレーバーのプロジェクトであっても、Visual Basic の規則 (二重二重引用符) に従い常にエスケープされます。