document-understanding

2021.10

false

重要 :

このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

サポート対象外

Document Understanding ガイド

デリバリー:

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

最終更新日時 2024年11月11日

インテリジェントキーワード分類器

インテリジェントキーワード分類器とは

インテリジェントキーワード分類器は、特定のドキュメントの種類のファイルから学習した単語ベクトルを使用して、ドキュメントの分類を実行する分類器です。

このアルゴリズムは、同じドキュメントの種類に対してコンテンツを繰り返すという概念を基に構築されており、ドキュメントの種類にはそれらのドキュメントの種類で通常発生する一連の単語があることを前提としています。これにより、ベクトル類似度の計算が可能になっています。

ファイルをドキュメントの種類に分類する際、インテリジェントキーワード分類器は以下を行います。

ファイルが最も類似する単語ベクトルを検索します。
最もスコアが高いドキュメントの種類と、元になる主な一致単語を報告します。

インテリジェントキーワード分類器 にはファイル分割機能もあるため、特定のファイルの別個のページ範囲に対して複数のクラスを報告できます。

使用すべきタイミング

以下の場合、この分類器の使用を検討する必要があります。

単一ファイルに 1 つ以上のドキュメントの種類が含まれる場合
コンテンツに関する限り、ドキュメントの種類を比較的容易に区別できる場合

特別な要件

この分類器を使用するには、Automation Cloud Document Understanding の API キーを使用するか、オンプレミスの AI Center でインテリジェントキーワード分類器の独自インスタンスをホストする必要があります。

設計時の設定方法

インテリジェントキーワード分類器 は、設計時にアクティビティの 学習を管理ウィザードにアクセスするだけで設定できます。このウィザードは、ドキュメント分類トレーニングフェーズで収集されたデータをレビューする際にも使用できます。それには、更新されたラーニングファイルのパスでウィザードを開きます。

このウィザードを使用すると、このアクティビティでドキュメントの種類を識別しドキュメントを分類するために使用されるトレーニングデータを設定および管理できます。ファイルパスを編集する必要性に合わせて作成されました。代わりに変数付きのトレーニングデータオプションが使用される場合、特定のファイルパスを編集するか、この操作を中止するかを確認されます。

注: [学習を管理] ウィザードは、アクティビティをラーニングファイルのパス文字列で設定した場合にのみ機能します。変数入力として設定されたラーニングファイルのパスや、ラーニングデータ文字列入力では動作しません。

[インテリジェントキーワード分類器]/[インテリジェントキーワード分類器トレーナー] アクティビティをワークフローに追加します。
.json ファイルのパスを追加して、[インテリジェントキーワード分類器] アクティビティを構成します。
- パスが指定されておらず、[学習の管理] オプションがクリックされると、学習ファイルのパスの入力を確認するポップアップが表示されます。パスが指定されると、ウィザードが開きます。
- .json ファイルではなく変数を追加できますが、ウィザードが LearningData 変数に学習パターンを適用することはできないため、編集できる特定のファイルのパスを要求します。
[学習を管理] オプションをクリックします。
- [ウィザード] ウィンドウが開きます。
パスが指定されておらず、[学習の管理] オプションがクリックされると、学習ファイルのパスを確認するポップアップが表示されます。パスが指定されると、ウィザードが開きます。

注: .json ファイルが使用できない場合でも、新しい .json ファイルの名前をアクティビティに直接追加することができ、.json ファイルが、指定されたフォルダー内に自動的に作成されます。

下記のスクリーンショットは、トレーニング済み、未トレーニング、トレーニング済みで表示または削除を目的としてアクセスされたドキュメントの種類を示しています。

未トレーニングのドキュメントの種類に対しては、[トレーニングを開始] オプションを使用して設計時トレーニングを実行できます。一部トレーニングを実行済みのドキュメントの種類に対しては、削除オプションを使用して削除してからやり直すか、編集オプションを使用して既存のトレーニングに対する追加のトレーニングを実行できます。

注: 使用するトレーニングファイルは、1 つのファイルにつき 1 つのドキュメントの種類を含める必要があります。2 つ以上のドキュメントの種類を含むファイルには、トレーニングデータに誤りがあるため、設計時トレーニングを実行しないでください。

新しいトレーニングを開始すると、使用するトレーニングファイルと OCR エンジンを確認するための新しい画面が表示されます。

各 OCR エンジンには、それぞれ独自のカスタムオプションが付属しています。各 OCR エンジンで利用可能なすべてのオプションに関する詳細は、こちらをご覧ください。

注:

以下の OCR エンジンは、回転されたドキュメントをサポートしていないため、そうしたドキュメントの処理には使用しないでください。

Microsoft OCR
Tesseract OCR

トレーニング済みのドキュメントの種類から得られたトレーニングデータだけをエクスポートすることができます。未トレーニングのドキュメントの種類は選択できません。

トレーニングデータをエクスポートする

次の手順に従って、トレーニングデータをエクスポートできます。

トレーニング済みのドキュメントの種類を選択します。
[エクスポート] ボタンをクリックします。
保存されていない変更がある場合は、次のメッセージが表示されます。
[はい] をクリックします。
トレーニングデータのアーカイブを希望の名前で保存します。
エクスポートされたドキュメントの種類のトレーニングデータセットの数を示すメッセージが表示されます。たとえば、次のようになります。
[OK] をクリックして、ウィザードのメイン画面に戻ります。

トレーニングデータをインポートする

次の手順に従って、トレーニングデータをインポートできます。

[インポート] ボタンをクリックします。
トレーニングデータのアーカイブを選択し、[開く] をクリックします。
必要なドキュメントの種類を選択します。
[インポート] ボタンをクリックします。
トレーニングデータがインポートされます。

以下の表は、トレーニングデータのインポート時に表示される各メッセージについて説明しています。

インポートの種類	表示されるメッセージ
新しいドキュメントの種類と単語ベクトル	このドキュメントの種類は、タクソノミーに追加されます。
新しい単語ベクトル (いずれも定義されたことがないもの)	N/A
同一のドキュメントの種類と単語ベクトル	このドキュメントの種類の単語ベクトルは上書きされます。

トレーニング方法

[インテリジェントキーワード分類器トレーナー] アクティビティを [分類器トレーニングスコープ] 内に配置して、適宜設定します。

並行して実行される複数のトレーニングにおいて、トレーニングファイルの整合性をアクティビティレベルで確保することはできません。この問題の 2 つの解決策が、Document Understanding Process (Studio テンプレート) で提供されています。どちらの解決策も、トラフィック制御によるものです。

ファイルのロック (プロセス内で既定で実行): 拡張子 .lock を使用してファイル名を変更し、ファイルを修正後に保存します。次に、再度ファイル名を変更し、拡張子 .lock を削除します。
特殊キューの手動セットアップ: Orchestrator 内に空のキューを作成し、プロジェクトの 2 つのアクティビティを統合します。

分類器のトレーニング方法について詳しくは、「ドキュメント分類トレーニング」をご覧ください。