Document Understanding ガイド

デリバリー:

最終更新日時 2025年10月31日

ドキュメントにラベル付けする

必要なドキュメントの量については、ページを確認してください。

高品質のデータセットを組み立てる方法について詳しくは、「優れたパフォーマンスのモデルをトレーニングする」をご覧ください。

同じドキュメント上で複数回発生するフィールド

フィールドが同じドキュメントまたは同じページの複数の箇所に出現することはよくあります。同じ意味を持つ限り、これらすべてのフィールドにラベル付けする必要があります。

たとえば、公共料金請求書の合計金額です。大抵の場合、合計金額は上部、中央の明細項目リスト内、または下部の給与明細に示されており、切り離して小切手とともに郵送することができます。この場合は、3 つの出現箇所すべてがラベル付けされます。そうすれば、OCR エラーが発生した場合や、レイアウトが異なるためにいずれかのフィールドを特定できない場合などに便利であり、モデルはそのような場合でも他の出現箇所を特定することができます。

注: 重要なのは値の意味であり、値自体ではありません。たとえば、税額を表示しない請求書では、正味金額と合計金額が同じ値になることがあります。しかし、これらは明らかに別々の概念です。したがって、その両方を合計金額としてラベル付けすることはできず、合計金額を表す方だけをラベル付けできます。

複数のユーザーが並行してラベル付けする

複数のユーザーが同じインスタンスを使用して、同じドキュメント上であっても、同時にラベル付けできます。

スキーマが同時に変更された場合、一方のユーザーによる変更が実行され、もう一方のユーザーには変更を実行できなかったことを示す警告メッセージが表示されます。後者のユーザーは、直ちにブラウザーを更新して、変更内容を確認する必要があります。

トレーニングのためにラベル付けする

データセットをインポートするときに [データをインポート] ダイアログボックスの [これを評価セットにする] チェックボックスをオフにすると、そのデータセットはトレーニングに使用されるため、モデルならびにドキュメントのラベルおよび値 (選択可能な単語と灰色のボックス) にラベル付けするだけで済みます。

まれに、サイドバーのフィールドに入力されたテキストが誤っていることがありますが、ML モデルはまだ学習中であるため、問題はありません。たとえば、[複数行] チェックボックスをオンにして、フィールドの設定を調整しなければならないこともあります。しかし、一般には、ページ上の単語のラベル付けのみを行います。

評価のためにラベル付けする

データセットをインポートするときに [データをインポート] ダイアログボックスの [これを評価セットにする] チェックボックスをオンにすると、そのデータセットは AI Center のトレーニングパイプラインでは使用されず、評価パイプラインでのみ使用されます。

サイドバー (列フィールドの場合は上部バー) にあるフィールドに正しいテキストが入力されていることが重要です。各フィールドのテキストに誤りがないかを逐一確認するのは手間がかかりますが、信頼できる精度メトリックを持つ ML モデルを構築するためには、これが唯一の方法です。

Document Manager では複数ページのドキュメントのラベル付けがサポートされています。したがって、サイドバーのフィールドの値はドキュメント全体で 1 つだけです。これにより、RPA ワークフロー実行時の動作に近い動作が反映されるため、AI Center の評価パイプラインでは、ML モデルの実際の実行時のパフォーマンスを反映した、現実的なスコアが生成されます。

ただし、この挙動は、各ページが個別にラベル付けされていた以前のバージョンとは大幅に異なるという点に注意してください。複数ページのドキュメントのラベル付けおよびエクスポートを行う際は、各ドキュメントが 1 つの論理的なドキュメントであることを前提としています。たとえば、6 ページのドキュメントに 6 ページの請求書が 1 つ含まれていても問題はありませんが、2 ページずつの異なる請求書が 3 つ含まれていてはいけません。これは、評価セットの場合に特に重要です。