Document Understanding ガイド

デリバリー:

最終更新日時 2025年2月4日

ドキュメントにラベル付けする

データの準備

必要なドキュメントの量については、「トレーニングパイプラインおよび再トレーニングパイプライン」のセクションをご覧ください。

トレーニングに使用するドキュメントを選択するときには、次の点にも注意する必要があります。まず、対象のフィールドを含まないか、1 つまたは 2 つしか含まないガベージページを削除する必要があります。Data Manager の [削除] ボタンを使用して削除できます。ページは失われてしまうわけではなく、[削除済み] ビューからいつでも復元できます。

次に、ユースケースに極めて多様性の高いドキュメント (請求書や領収書など) が含まれる場合は、多様性の高いトレーニングセットが必要です。同時に、データセットはバランスがとれている必要があります。あるベンダーのドキュメントが他のベンダーのドキュメントよりも 10 倍多くなるようなことがあってはなりません。一般に、特定のレイアウトからの 2 個から 3 個のドキュメント (ドキュメントあたりの平均ページ数が 2 ページの場合は、4 ページから 6 ページ) があれば十分です。そのうちいくつかがワークフローで非常に一般的なものであり、正しく抽出されるようにしたい場合は、5 個から 7 個のサンプル (10 ページから 15 ページ) を含めることができます。

ただし、非常に一貫性のあるレイアウト (フォームなど) を持つドキュメントがユースケースに含まれる場合は、そのレイアウトからのサンプルが最低でも 30 は必要になります。トレーニングセットが小さすぎると、ML モデルのトレーニングが失敗する可能性があるためです。

複数のユーザーが並行してラベル付けする

以下の条件が満たされている場合にのみ、複数のユーザーが同じインスタンスを同時に使用してラベル付けすることができます。

同じドキュメントを 2 名のユーザーが同時にラベル付けしてはなりません。
フィールドの追加、削除、または設定変更は、必ず 1 名のユーザーが行う必要があります。他のすべてのユーザーは、ブラウザーを直ちに更新して変更内容を確認します。他のユーザーがラベル付けを行っている間にフィールドに変更を加えた場合の動作は予測不可能です。

トレーニングのためにラベル付けする

データセットをインポートするときに、[データをインポート] ダイアログボックスで [これをテストセットにする] チェックボックスをオンにしていない場合、データセットがトレーニングで使用されます。この場合にする必要があるのは、ドキュメント上の単語 (灰色のボックス) のラベル付けだけです。まれに、サイドバーのフィールドに入力されたテキストが誤っていることがありますが、ML モデルはまだ学習中であるため、問題はありません。たとえば、[複数行] チェックボックスをオンにして、フィールドの設定を調整しなければならないこともあります。しかし、一般には、ページ上の単語のラベル付けのみを行います。

同じドキュメント上で複数回発生するフィールド

フィールドが同じドキュメントまたは同じページの複数の箇所に出現することはよくあります。同じ意味を持つ限り、これらすべてのフィールドにラベル付けする必要があります。そうしたフィールドの例として、多くの公共料金請求書の合計金額が挙げられます。大抵の場合、合計金額は上部、中央の明細項目リスト内、および下部の給与明細に示されており、切り離して小切手とともに郵送することができます。この場合は、3 つの出現箇所すべてがラベル付けされます。そうしておけば、OCR エラーが発生した場合や、レイアウトが異なるためにいずれかのフィールドを特定できない場合などに便利であり、モデルはそのような場合でも他の出現箇所を特定することができます。

重要なのは値の意味であり、値自体ではありません。たとえば、税額を表示しない請求書では、正味金額と合計金額が同じ値になることがあります。しかし、これらは明らかに別々の概念です。したがって、その両方を合計金額としてラベル付けすることはできず、合計金額を表すことを意図した方だけを合計金額としてラベル付けできます。

テストのためにラベル付けする

データセットをインポートするときに、[データをインポート] ダイアログボックスで [これをテストセットにする] チェックボックスをオンにすると、データセットは AI Fabric のトレーニングパイプラインでは使用されず、評価パイプラインでのみ使用されます。この場合、サイドバー (列フィールドの場合は上部バー) にあるフィールドに正しいテキストを入力することが重要です。フィールドのテキストに誤りがないかを逐一確認するのは手間がかかりますが、作成している ML モデルの信頼できる精度メトリックを得るためには、これが唯一の方法です。

ラベル付け操作

ドキュメントのラベル付け時に実行する必要がある主な操作を以下に示します。同じページの複数の場所で、ある特定のフィールドにラベル付けできます。

フィールドにラベル付けする
- マウスをドラッグ (ラバーバンディング) して単語を選択するか、単語をクリックし、Shift キーを押しながら複数の単語を選択します。
- ショートカットキーをタップして、フィールドをラベル付けします。
ラベルを削除する
- 単語を選択して、キーボードの Delete キーまたは Backspace キーをタップします。
テーブルの行をグループ化する
- いくつかの列フィールドをラベル付けした後、一部の行が複数のテキスト行にまたがっている場合にのみ、「/」キーを使用してグループ化し、同じテーブル行の一部であることを示すことができます。グループの周囲に緑色のボックスが表示されます。
テーブルの行のグループ化を解除する
- グループを選択し、再び「/」キーを押します。
OCR に修正を加える
- 単語を右クリックし、表示されるツールチップのテキストを編集します。運用環境では OCR が引き続きこうしたエラーを起こすため、この操作が推奨されることはほとんどありません。したがって、通常はスキップして次に進むのが最適です。
ラベル付けされた値に修正を加える
- サイドバーまたは上部バーにあるテキストをクリックして、コンテンツを編集します。フィールドが手動で編集されたことを示す、小さなロックが表示されます。これは、テストセットをラベル付けするときに必要になります。
ラベル付けされた値を自動抽出された値にリセットする
- ロックをクリックすると、自動抽出された値に戻ります。