- 概要
- Document Understanding Process
- クイックスタート チュートリアル
- フレームワーク コンポーネント
- ML パッケージ
- パイプライン
- データ マネージャー (Data Manager)
- OCR サービス
- Automation Suite にデプロイされた Document Understanding
- AI Center スタンドアロンにデプロイされた Document Understanding
- ディープ ラーニング
- ライセンス
- 参照
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
キーワード ベースの分類器
キーワード ベースの分類器は、ドキュメントの分類を実行するために、特定のファイル内で繰り返される文字列シーケンスを検索する簡易な分類器です。
このアルゴリズムは、ドキュメントのタイトルの概念を基に構築されており、タイトルを持つドキュメントの種類は、それらのタイトルのドキュメントでの表示方法にそれほど違いがないことを前提としています。
ファイルをドキュメントの種類に分類する際、キーワード ベースの分類器は以下を行います。
-
学習データから、タクソノミーのドキュメントの種類に該当する、最も一致する文字列または文字列コレクションを検索します。信頼度は以下に基づいて計算されます。
- ドキュメントの先頭にどれだけ一致しているか
- Knowledge Workers によって一致が確認され、学習データで強化された回数
- 最もスコアが高いドキュメントの種類と、元になる一致設定を報告します。
キーワード ベースの分類器は、単一の文字列エントリ (分類器が使用している学習データで、1 つのエントリと見なされる 1 つの文字列) または複数の文字列を含むエントリ (1 つのエントリを構成する 2 つ以上の文字列) を使用できます。複数の文字列の場合、分類器は各文字列に個別にマッチング アルゴリズムを適用してから、特定された一致の信頼度の単純な平均値を計算します。
以下の例を見てみましょう。
- エントリに「this is my match」などの単一文字列が含まれる場合、キーワード ベースの分類器はこの文字列をドキュメントの種類の一致候補として検索し、評価します (文字列が帰属するドキュメントの種類に応じて)。
- エントリに「this is a match」、「needs more evidence for filtering」、「yet another one」などの 3 つの文字列が含まれる場合、キーワード ベースの分類器は 3 つの文字列それぞれを検索して評価してから、一致の信頼度の単純な平均値を計算して報告します。
キーワード セットは、1 行で定義することも、複数行を使用して定義することもできます。1 行で設定すると、指定した入力が識別されます。たとえば、 x、 y、 z をキーワードとして指定すると、 x と y と z が検索されます。
複数の行で定義されている場合は、1 行目から順番に最後の行まで、指定されているすべてのキーワードが検索され、最も多くのキーワードに一致している文字列が特定されます。したがって、より多くのキーワードを使用してより多くの一致する文字列を特定すれば、信頼度スコアが上昇します。
以下の場合、この分類器の使用を検討する必要があります。
- ファイルに含まれるドキュメントの種類は 1 つだけで、ファイルの分割が不要な場合。
- ファイルの最初の 3 ページに、ドキュメントの種類に関連する証拠が含まれる場合。
キーワード ベースの分類器について詳しくは、こちらをご覧ください。