- 概要
- Document Understanding Process
- クイックスタート チュートリアル
- フレームワーク コンポーネント
- ML パッケージ
- パイプライン
- Document Manager
- OCR サービス
- Automation Suite にデプロイされた Document Understanding
- AI Center スタンドアロンにデプロイされた Document Understanding
- ディープ ラーニング
- ライセンス
- 参照
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
ドキュメントにラベル付けする
必要なドキュメントの量については、「パイプライン」をご覧ください。
高品質のデータセットをアセンブルする方法について詳しくは、「優れたパフォーマンスのモデルをトレーニングする」をご覧ください。
フィールドが同じドキュメントまたは同じページの複数の箇所に出現することはよくあります。同じ意味を持つ限り、これらすべてのフィールドにラベル付けする必要があります。
たとえば、公共料金請求書の合計金額です。大抵の場合、合計金額は上部、中央の明細項目リスト内、または下部の給与明細に示されており、切り離して小切手とともに郵送することができます。この場合は、3 つの出現箇所すべてがラベル付けされます。そうすれば、OCR エラーが発生した場合や、レイアウトが異なるためにいずれかのフィールドを特定できない場合などに便利であり、モデルはそのような場合でも他の出現箇所を特定することができます。
複数のユーザーが同じインスタンスを使用して、同じドキュメント上であっても、同時にラベル付けできます。
スキーマが同時に変更された場合、一方のユーザーによる変更が実行され、もう一方のユーザーには変更を実行できなかったことを示す警告メッセージが表示されます。後者のユーザーは、直ちにブラウザーを更新して、変更内容を確認する必要があります。
データセットをインポートするときに [データをインポート] ダイアログ ボックスの [これを評価セットにする] チェックボックスをオフにすると、そのデータセットはトレーニングに使用されるため、ドキュメントの単語 (灰色のボックス) にラベル付けするだけで済みます。
まれに、サイドバーのフィールドに入力されたテキストが誤っていることがありますが、ML モデルはまだ学習中であるため、問題はありません。たとえば、[複数行] チェックボックスをオンにして、フィールドの設定を調整しなければならないこともあります。しかし、一般には、ページ上の単語のラベル付けのみを行います。
データセットをインポートするときに [データをインポート] ダイアログ ボックスの [これを評価セットにする] チェックボックスをオンにすると、そのデータセットは AI Center のトレーニング パイプラインでは使用されず、評価パイプラインでのみ使用されます。
サイドバー (列フィールドの場合は上部バー) にあるフィールドに正しいテキストが入力されていることが重要です。各フィールドのテキストに誤りがないかを逐一確認するのは手間がかかりますが、信頼できる精度メトリックを持つ ML モデルを構築するためには、これが唯一の方法です。
v2021.10 のリリースより、Document Manager では複数ページのドキュメントのラベル付けがサポートされています。したがって、サイドバーのフィールドの値はドキュメント全体で 1 つだけです。これにより、RPA ワークフロー実行時の動作に近い動作が反映されるため、AI Center の評価パイプラインでは、ML モデルの実際の実行時のパフォーマンスを反映した、現実的なスコアが生成されます。
ただし、この挙動は、各ページが個別にラベル付けされていた以前のバージョンとは大幅に異なるという点に注意してください。複数ページのドキュメントのラベル付けおよびエクスポートを行う際は、各ドキュメントが 1 つの論理的なドキュメントであることを前提としています。たとえば、6 ページのドキュメントに 6 ページの請求書が 1 つ含まれていても問題はありませんが、2 ページずつの異なる請求書が 3 つ含まれていてはいけません。これは、評価セットの場合に特に重要です。
ドキュメントのラベル付け時に実行する必要がある主な操作を以下に示します。同じページの複数の場所で、ある特定のフィールドにラベル付けできます。
個々のテキスト ボックスをクリックして選択します。
Ctrl
/Shift
キーを押しながら単語の残りの部分をクリックするか、マウスをドラッグして領域全体を選択します (ラバー バンディング)。
Ctrl
/Shift
を押しながら不要なテキスト ボックスを再度クリックするか、ラバー バンドで再度選択します。
正確に選択できたら、ショートカット キーを押してフィールドにラベルを付けます。
フィールドの複数値オプションが選択されていることを確認します。
情報の最初のバッチを選択し、ショートカット キーを押してフィールドにラベルを付けます。
複数値フィールドのすべての値がラベル付けされるまで、上記の手順を繰り返します。
- 複数値フィールドは、Machine Learning パッケージのバージョン 2022.10 以降でのみ使用できます。
- 複数値フィールドには、折りたたまれた状態では 2 つの値、展開した状態ではすべての値が表示されます。複数値フィールドの展開矢印をクリックすると、タグ付けされたすべての値のリストが展開されて表示されます。
/
キーを押してテキストをグループ化して、表の同じ行の一部であることを示すことができます。グループの周囲に緑色のボックスが表示されます。
ラベル付けされた列フィールドをグループ化すると、表が解析されて上部に表示され、抽出されたデータが強調表示されます。
サイドバーまたは上部バーにあるテキストをクリックして、内容を編集します。フィールドが手動で編集されたことを示す、小さなロックが表示されます。これは、評価セットをラベル付けするときに必要になります。
ラベルを選択する
マウスの左ボタンを使用してボックスを選択するか、右ボタンを使用してボックスの詳細を確認します。
- 左クリック - ボックスを選択します。
- 右クリック - ボックスを選択し、OCR で検出したテキストと現在のラベルに関する情報を表示します。
ドキュメントのナビゲーション
- Alt + 左矢印/右矢印 - ドキュメント間を移動します。
ドキュメントのスケーリング
- Ctrl + スクロール - 拡大/縮小してドキュメントのスケーリングを変更します。
ドキュメントを削除または回復する
- Alt + Delete - ドキュメントを削除します。
- Alt + Delete - 削除したドキュメントを回復します。