Document Understanding
2022.4
バナーの背景画像
Document Understanding ガイド
最終更新日 2024年3月13日

ドキュメントにラベル付けする

必要なドキュメントの量については、「パイプライン」をご覧ください。

高品質のデータセットをアセンブルする方法について詳しくは、「優れたパフォーマンスのモデルをトレーニングする」をご覧ください。

同じドキュメント上で複数回発生するフィールド

フィールドが同じドキュメントまたは同じページの複数の箇所に出現することはよくあります。同じ意味を持つ限り、これらすべてのフィールドにラベル付けする必要があります。

たとえば、公共料金請求書の合計金額です。大抵の場合、合計金額は上部、中央の明細項目リスト内、または下部の給与明細に示されており、切り離して小切手とともに郵送することができます。この場合は、3 つの出現箇所すべてがラベル付けされます。そうすれば、OCR エラーが発生した場合や、レイアウトが異なるためにいずれかのフィールドを特定できない場合などに便利であり、モデルはそのような場合でも他の出現箇所を特定することができます。

注: 重要なのは値の意味であり、値自体ではありません。たとえば、税額を表示しない請求書では、正味金額と合計金額が同じ値になることがあります。しかし、これらは明らかに別々の概念です。したがって、その両方を合計金額としてラベル付けすることはできず、合計金額を表す方だけをラベル付けできます。

複数のユーザーが並行してラベル付けする

複数のユーザーが同じインスタンスを使用して、同じドキュメント上であっても、同時にラベル付けできます。

スキーマが同時に変更された場合、一方のユーザーによる変更が実行され、もう一方のユーザーには変更を実行できなかったことを示す警告メッセージが表示されます。後者のユーザーは、直ちにブラウザーを更新して、変更内容を確認する必要があります。

トレーニングのためにラベル付けする

データセットをインポートするときに [データをインポート] ダイアログ ボックスの [これを評価セットにする] チェックボックスをオフにすると、そのデータセットはトレーニングに使用されるため、ドキュメントの単語 (灰色のボックス) にラベル付けするだけで済みます。

まれに、サイドバーのフィールドに入力されたテキストが誤っていることがありますが、ML モデルはまだ学習中であるため、問題はありません。たとえば、[複数行] チェックボックスをオンにして、フィールドの設定を調整しなければならないこともあります。しかし、一般には、ページ上の単語のラベル付けのみを行います。

評価のためにラベル付けする

データセットをインポートするときに [データをインポート] ダイアログ ボックスの [これを評価セットにする] チェックボックスをオンにすると、そのデータセットは AI Center のトレーニング パイプラインでは使用されず、評価パイプラインでのみ使用されます。

サイドバー (列フィールドの場合は上部バー) にあるフィールドに正しいテキストが入力されていることが重要です。各フィールドのテキストに誤りがないかを逐一確認するのは手間がかかりますが、信頼できる精度メトリックを持つ ML モデルを構築するためには、これが唯一の方法です。

v2021.10 のリリースより、Document Manager では複数ページのドキュメントのラベル付けがサポートされています。したがって、サイドバーのフィールドの値はドキュメント全体で 1 つだけです。これにより、RPA ワークフロー実行時の動作に近い動作が反映されるため、AI Center の評価パイプラインでは、ML モデルの実際の実行時のパフォーマンスを反映した、現実的なスコアが生成されます。

ただし、この挙動は、各ページが個別にラベル付けされていた以前のバージョンとは大幅に異なるという点に注意してください。複数ページのドキュメントのラベル付けおよびエクスポートを行う際は、各ドキュメントが 1 つの論理的なドキュメントであることを前提としています。たとえば、6 ページのドキュメントに 6 ページの請求書が 1 つ含まれていても問題はありませんが、2 ページずつの異なる請求書が 3 つ含まれていてはいけません。これは、評価セットの場合に特に重要です。

ラベル付け操作

ドキュメントのラベル付け時に実行する必要がある主な操作を以下に示します。同じページの複数の場所で、ある特定のフィールドにラベル付けできます。

フィールドにラベル付けする

個々のテキスト ボックスをクリックして選択します。

複数の単語を選択するには、最初の単語をクリックし、Ctrl/Shift キーを押しながら単語の残りの部分をクリックするか、マウスをドラッグして領域全体を選択します (ラバー バンディング)。
特定のテキスト ボックスの選択を解除するには、Ctrl/Shift を押しながら不要なテキスト ボックスを再度クリックするか、ラバー バンドで再度選択します。

正確に選択できたら、ショートカット キーを押してフィールドにラベルを付けます。



ラベルを削除する

テキスト ボックスを選択して、キーボードの Delete キーまたは Backspace キーを押します。


テーブルの行をグループ化する

列フィールドをいくつかラベル付けした後、一部の行が複数のテキスト行にまたがっている場合にのみ / キーを押してテキストをグループ化して、表の同じ行の一部であることを示すことができます。グループの周囲に緑色のボックスが表示されます。


テーブルの行のグループ化を解除する

グループを選択し、再び / キーを押します。


ラベル付けされた値に修正を加える

サイドバーまたは上部バーにあるテキストをクリックして、内容を編集します。フィールドが手動で編集されたことを示す、小さなロックが表示されます。これは、評価セットをラベル付けするときに必要になります。



ラベル付けされた値を自動抽出された値にリセットする

ロックをクリックすると、フィールドは自動抽出された値に戻ります。



Was this page helpful?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
UiPath ロゴ (白)
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.