- 基本情報
- フレームワーク コンポーネント
- AI Center での Document Understanding
- パイプライン
- ML パッケージ
- データ マネージャー (Data Manager)
- OCR サービス
- ライセンス
- 参照
ドキュメントにラベル付けする
必要なドキュメントの量については、「トレーニング パイプラインおよび再トレーニング パイプライン」のセクションをご覧ください。
トレーニングに使用するドキュメントを選択するときには、次の点にも注意する必要があります。まず、対象のフィールドを含まないか、1 つまたは 2 つしか含まないガベージ ページを削除する必要があります。Data Manager の [削除] ボタンを使用して削除できます。ページは失われてしまうわけではなく、[削除済み] ビューからいつでも復元できます。
次に、ユースケースに極めて多様性の高いドキュメント (請求書や領収書など) が含まれる場合は、多様性の高いトレーニング セットが必要です。同時に、データセットはバランスがとれている必要があります。あるベンダーのドキュメントが他のベンダーのドキュメントよりも 10 倍多くなるようなことがあってはなりません。一般に、特定のレイアウトからの 2 個から 3 個のドキュメント (ドキュメントあたりの平均ページ数が 2 ページの場合は、4 ページから 6 ページ) があれば十分です。そのうちいくつかがワークフローで非常に一般的なものであり、正しく抽出されるようにしたい場合は、5 個から 7 個のサンプル (10 ページから 15 ページ) を含めることができます。
ただし、非常に一貫性のあるレイアウト (フォームなど) を持つドキュメントがユースケースに含まれる場合は、そのレイアウトからのサンプルが最低でも 30 は必要になります。トレーニング セットが小さすぎると、ML モデルのトレーニングが失敗する可能性があるためです。
以下の条件が満たされている場合にのみ、複数のユーザーが同じインスタンスを同時に使用してラベル付けすることができます。
- 同じドキュメントを 2 名のユーザーが同時にラベル付けしてはなりません。
- フィールドの追加、削除、または設定変更は、必ず 1 名のユーザーが行う必要があります。他のすべてのユーザーは、ブラウザーを直ちに更新して変更内容を確認します。他のユーザーがラベル付けを行っている間にフィールドに変更を加えた場合の動作は予測不可能です。
データセットをインポートするときに、[データをインポート] ダイアログボックスで [これをテスト セットにする] チェックボックスをオンにしていない場合、データセットがトレーニングで使用されます。この場合にする必要があるのは、ドキュメント上の単語 (灰色のボックス) のラベル付けだけです。まれに、サイドバーのフィールドに入力されたテキストが誤っていることがありますが、ML モデルはまだ学習中であるため、問題はありません。たとえば、[複数行] チェックボックスをオンにして、フィールドの設定を調整しなければならないこともあります。しかし、一般には、ページ上の単語のラベル付けのみを行います。
フィールドが同じドキュメントまたは同じページの複数の箇所に出現することはよくあります。同じ意味を持つ限り、これらすべてのフィールドにラベル付けする必要があります。そうしたフィールドの例として、多くの公共料金請求書の合計金額が挙げられます。大抵の場合、合計金額は上部、中央の明細項目リスト内、および下部の給与明細に示されており、切り離して小切手とともに郵送することができます。この場合は、3 つの出現箇所すべてがラベル付けされます。そうしておけば、OCR エラーが発生した場合や、レイアウトが異なるためにいずれかのフィールドを特定できない場合などに便利であり、モデルはそのような場合でも他の出現箇所を特定することができます。
重要なのは値の意味であり、値自体ではありません。たとえば、税額を表示しない請求書では、正味金額と合計金額が同じ値になることがあります。しかし、これらは明らかに別々の概念です。したがって、その両方を合計金額としてラベル付けすることはできず、合計金額を表すことを意図した方だけを合計金額としてラベル付けできます。
データセットをインポートするときに、[データをインポート] ダイアログボックスで [これをテスト セットにする] チェックボックスをオンにすると、データセットは AI Fabric のトレーニング パイプラインでは使用されず、評価パイプラインでのみ使用されます。この場合、サイドバー (列フィールドの場合は上部バー) にあるフィールドに正しいテキストを入力することが重要です。フィールドのテキストに誤りがないかを逐一確認するのは手間がかかりますが、作成している ML モデルの信頼できる精度メトリックを得るためには、これが唯一の方法です。