- 基本情報
- フレームワーク コンポーネント
- AI Center での Document Understanding
- パイプライン
- ML パッケージ
- データ マネージャー (Data Manager)
- OCR サービス
- ライセンス
- 参照
インテリジェント キーワード分類器
インテリジェント キーワード分類器は、特定のドキュメントの種類のファイルから学習した単語ベクトルを使用して、ドキュメントの分類を実行する分類器です。
このアルゴリズムは、同じドキュメントの種類に対してコンテンツを繰り返すという概念を基に構築されており、ドキュメントの種類にはそれらのドキュメントの種類で通常発生する一連の単語があることを前提としています。これにより、ベクトル類似度の計算が可能になっています。
ファイルをドキュメントの種類に分類する際、インテリジェント キーワード分類器は以下を行います。
- ファイルが最も類似する単語ベクトルを検索します。
- 最もスコアが高いドキュメントの種類と、元になる主な一致単語を報告します。
インテリジェント キーワード分類器 にはファイル分割機能もあるため、特定のファイルの別個のページ範囲に対して複数のクラスを報告できます。
以下の場合、この分類器の使用を検討する必要があります。
- 単一ファイルに 1 つ以上のドキュメントの種類が含まれる場合
- コンテンツに関する限り、ドキュメントの種類を比較的容易に区別できる場合
この分類器を使用するには、Automation Cloud Document Understanding の API キーを使用するか、オンプレミスの AI Center でインテリジェント キーワード分類器の独自インスタンスをホストする必要があります。
インテリジェント キーワード分類器 は、設計時にアクティビティの 学習を管理ウィザードにアクセスするだけで設定できます。このウィザードは、ドキュメント分類トレーニング フェーズで収集されたデータをレビューする際にも使用できます。それには、更新されたラーニング ファイルのパスでウィザードを開きます。
このウィザードを使用すると、このアクティビティでドキュメントの種類を識別しドキュメントを分類するために使用されるトレーニング データを設定および管理できます。ファイル パスを編集する必要性に合わせて作成されました。代わりに変数付きのトレーニング データ オプションが使用される場合、特定のファイル パスを編集するか、この操作を中止するかを確認されます。
下記のスクリーンショットは、トレーニング済み、未トレーニング、トレーニング済みで表示または削除を目的としてアクセスされたドキュメントの種類を示しています。
未トレーニングのドキュメントの種類に対しては、[トレーニングを開始] オプションを使用して設計時トレーニングを実行できます。一部トレーニングを実行済みのドキュメントの種類に対しては、削除 オプションを使用して削除してからやり直すか、編集 オプションを使用して既存のトレーニングに対する追加のトレーニングを実行できます。
設計時トレーニングに供給するトレーニング ファイルには、単一のドキュメントの種類を含める
使用するトレーニング ファイルは、1 つのファイルにつき 1 つのドキュメントの種類を含める必要があります。2 つ以上のドキュメントの種類を含むファイルには、トレーニング データに誤りがあるため、設計時トレーニングを実行しないでください。
新しいトレーニングを開始すると、使用するトレーニング ファイルと OCR エンジンを確認するための新しい画面が表示されます。
各 OCR エンジンには、それぞれ独自のカスタム オプションが付属しています。各 OCR エンジンで利用可能なすべてのオプションに関する詳細は、こちらをご覧ください。
以下の OCR エンジンは、回転されたドキュメントをサポートしていないため、そうしたドキュメントの処理には使用しないでください。
- Microsoft OCR
- Tesseract OCR
トレーニング済みのドキュメントの種類から得られたトレーニング データだけをエクスポートすることができます。未トレーニングのドキュメントの種類は選択できません。
次の手順に従って、トレーニング データをエクスポートできます。
- トレーニング済みのドキュメントの種類を選択します。
- [エクスポート] ボタンをクリックします。
-
保存されていない変更がある場合は、次のメッセージが表示されます。
- [はい] をクリックします。
- トレーニング データのアーカイブを希望の名前で保存します。
- エクスポートされたドキュメントの種類のトレーニング データ セットの数を示すメッセージが表示されます。たとえば、次のようになります。
- [OK] をクリックします。ウィザードが閉じます。
次の手順に従って、トレーニング データをインポートできます。
- [インポート] ボタンをクリックします。
- トレーニング データのアーカイブを選択し、[開く] をクリックします。
- 必要なドキュメントの種類を選択します。
- [インポート] ボタンをクリックします。
- トレーニング データがインポートされます。
以下の表は、トレーニング データのインポート時に表示される各メッセージについて説明しています。
インポートの種類 |
表示されるメッセージ |
---|---|
新しいドキュメントの種類と単語ベクトル |
このドキュメントの種類は、タクソノミーに追加されます。 |
新しい単語ベクトル (いずれも定義されたことがないもの) |
N/A |
同一のドキュメントの種類と単語ベクトル |
このドキュメントの種類の単語ベクトルは上書きされます。 |
[インテリジェント キーワード分類器トレーナー] アクティビティを [分類器トレーニング スコープ] 内に配置して、適宜設定します。
詳細については、「ドキュメント分類トレーニング」をご覧ください。