document-understanding
2024.10
true
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。 新しいコンテンツの翻訳は、およそ 1 ~ 2 週間で公開されます。
UiPath logo, featuring letters U and I in white

Document Understanding ガイド

Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
最終更新日時 2024年12月18日

ドキュメントにラベル付けする

必要なドキュメントの量については、「パイプライン」をご覧ください。

高品質のデータセットをアセンブルする方法について詳しくは、「優れたパフォーマンスのモデルをトレーニングする」をご覧ください。

同じドキュメント上で複数回発生するフィールド

フィールドが同じドキュメントまたは同じページの複数の箇所に出現することはよくあります。同じ意味を持つ限り、これらすべてのフィールドにラベル付けする必要があります。

たとえば、公共料金請求書の合計金額です。大抵の場合、合計金額は上部、中央の明細項目リスト内、または下部の給与明細に示されており、切り離して小切手とともに郵送することができます。この場合は、3 つの出現箇所すべてがラベル付けされます。そうすれば、OCR エラーが発生した場合や、レイアウトが異なるためにいずれかのフィールドを特定できない場合などに便利であり、モデルはそのような場合でも他の出現箇所を特定することができます。

注: 重要なのは値の意味であり、値自体ではありません。たとえば、税額を表示しない請求書では、正味金額と合計金額が同じ値になることがあります。しかし、これらは明らかに別々の概念です。したがって、その両方を合計金額としてラベル付けすることはできず、合計金額を表す方だけをラベル付けできます。

複数のユーザーが並行してラベル付けする

複数のユーザーが同じインスタンスを使用して、同じドキュメント上であっても、同時にラベル付けできます。

スキーマが同時に変更された場合、一方のユーザーによる変更が実行され、もう一方のユーザーには変更を実行できなかったことを示す警告メッセージが表示されます。後者のユーザーは、直ちにブラウザーを更新して、変更内容を確認する必要があります。

トレーニングのためにラベル付けする

データセットをインポートするときに [データをインポート] ダイアログ ボックスの [これを評価セットにする] チェックボックスをオフにすると、そのデータセットはトレーニングに使用されるため、モデルならびにドキュメントのラベルおよび値 (選択可能な単語と灰色のボックス) にラベル付けするだけで済みます。

まれに、サイドバーのフィールドに入力されたテキストが誤っていることがありますが、ML モデルはまだ学習中であるため、問題はありません。たとえば、[複数行] チェックボックスをオンにして、フィールドの設定を調整しなければならないこともあります。しかし、一般には、ページ上の単語のラベル付けのみを行います。

評価のためにラベル付けする

データセットをインポートするときに [データをインポート] ダイアログ ボックスの [これを評価セットにする] チェックボックスをオンにすると、そのデータセットは AI Center のトレーニング パイプラインでは使用されず、評価パイプラインでのみ使用されます。

サイドバー (列フィールドの場合は上部バー) にあるフィールドに正しいテキストが入力されていることが重要です。各フィールドのテキストに誤りがないかを逐一確認するのは手間がかかりますが、信頼できる精度メトリックを持つ ML モデルを構築するためには、これが唯一の方法です。

Document Manager では複数ページのドキュメントのラベル付けがサポートされています。したがって、サイドバーのフィールドの値はドキュメント全体で 1 つだけです。これにより、RPA ワークフロー実行時の動作に近い動作が反映されるため、AI Center の評価パイプラインでは、ML モデルの実際の実行時のパフォーマンスを反映した、現実的なスコアが生成されます。

ただし、この挙動は、各ページが個別にラベル付けされていた以前のバージョンとは大幅に異なるという点に注意してください。複数ページのドキュメントのラベル付けおよびエクスポートを行う際は、各ドキュメントが 1 つの論理的なドキュメントであることを前提としています。たとえば、6 ページのドキュメントに 6 ページの請求書が 1 つ含まれていても問題はありませんが、2 ページずつの異なる請求書が 3 つ含まれていてはいけません。これは、評価セットの場合に特に重要です。

ラベル付け操作

ドキュメントのラベル付け時に実行する必要がある主な操作を以下に示します。同じページの複数の場所で、ある特定のフィールドにラベル付けできます。

フィールドにラベル付けする

個々のテキスト ボックスをクリックして選択します。

複数の単語を選択するには、最初の単語をクリックし、Ctrl/Shift キーを押しながら単語の残りの部分をクリックするか、マウスをドラッグして領域全体を選択します (ラバー バンディング)。

特定のテキスト ボックスの選択を解除するには、Ctrl/Shift を押しながら不要なテキスト ボックスを再度クリックするか、ラバー バンドで再度選択します。

正確に選択できたら、ショートカット キーを押してフィールドにラベルを付けます。

複数値フィールドにラベル付けする

フィールドの複数値オプションが選択されていることを確認します。

情報の最初のバッチを選択し、ショートカット キーを押してフィールドにラベルを付けます。

複数値フィールドのすべての値がラベル付けされるまで、上記の手順を繰り返します。

注: 複数値フィールドには、折りたたまれた状態では 2 つの値、展開した状態ではすべての値が表示されます。複数値フィールドの展開矢印をクリックすると、タグ付けされたすべての値のリストが展開されて表示されます。

ラベルを削除する

テキスト ボックスを選択して、キーボードの Delete キーまたは Backspace キーを押します。

テーブルの行をグループ化する

列フィールドをいくつかラベル付けした後、一部の行が複数のテキスト行にまたがっている場合にのみ / キーを押してテキストをグループ化して、表の同じ行の一部であることを示すことができます。グループの周囲に緑色のボックスが表示されます。

ラベル付けされた列フィールドをグループ化すると、表が解析されて上部に表示され、抽出されたデータが強調表示されます。

テーブルの行のグループ化を解除する

グループを選択し、再び / キーを押します。

その他のオプション

ラベルを選択する

マウスの左ボタンを使用してボックスを選択するか、右ボタンを使用してボックスの詳細を確認します。

  • 左クリック - ボックスを選択します。
  • 右クリック - ボックスを選択し、OCR で検出したテキストと現在のラベルに関する情報を表示します。

ドキュメントのナビゲーション

  • Alt + 左矢印/右矢印 - ドキュメント間を移動します。

ドキュメントのスケーリング

  • Ctrl + スクロール - 拡大/縮小してドキュメントのスケーリングを変更します。

ドキュメントを削除または回復する

  • Alt + Delete - ドキュメントを削除します。
  • Alt + Delete - 削除したドキュメントを回復します。

このページは役に立ちましたか?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
Uipath Logo White
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.