Document Understanding
最新
バナーの背景画像
Document Understanding ガイド
最終更新日 2024年4月30日

フォーム AI

フォーム AI は Document Understanding の一部であり、標準のレイアウトとフィールドを持つ構造化されたフォームのアップロードおよび処理に使用できます。

フォーム AI を作成する

フォーム AI は、Document Understanding で使用できる最初の抽出方法です。Document Understanding で新しいプロジェクトを作成する方法について詳しくは、こちらをご覧ください。

プロジェクトを作成したら、プロジェクト内でフォーム AI を使用してドキュメントの種類を作成するための手順を次のとおり実行する必要があります。

  • プロジェクトを開き、[新しいドキュメントの種類] ボタンをクリックします。



    ドキュメントの種類の名前の入力を求めるダイアログ ボックスが開きます。



ドキュメント分類器を Document Understanding から直接トレーニングする場合は、ワン クリック分類機能を使用できます。

注:フォーム AI で使用する固定レイアウト フォームの最大ページ数は 5 ページです。

フォーム AI を半構造化ドキュメントに変換する

ドキュメントの種類をフォーム AI から半構造化ドキュメントに変換できます。

ドキュメントの種類をフォーム AI から半構造化 (Document Manager) に変換するときには、Document Manager で提供されているすべての機能を使用できます。

変換オプションは、複雑なシナリオでより強力なディープ ラーニング マシン ラーニング モデルをトレーニングするのに最適です。

フォーム AI セッションの変換方法

フォーム AI セッションを Document Manager セッションに変換する場合は、2 つのオプションを選択できます。

プロジェクトの [ドキュメントの種類] リストから

プロジェクトの [ドキュメントの種類] リストから直接ドキュメントの種類を変換できます。

変換するドキュメントの種類の [アクション メニューを開く] にアクセスし、[半構造化ドキュメントに変換] オプションをクリックします。操作の確定を求めるポップアップ ウィンドウが表示されます。

注意:

ドキュメントの種類を変換した後は、操作を元に戻すことができません。

次の例は、変換機能の使用方法を示しています。



開いているフォーム AI セッションから

作成済みのフォーム AI セッションを開き、半構造化セッションに変換します。

開いたセッションからアクセス メニュー をクリックし、[半構造化ドキュメントに変換] オプションをクリックします。

注意: ドキュメントの種類を変換した後は、操作を元に戻すことができません。

プロジェクトに AI Center へのリンクがない場合、[半構造化ドキュメントに変換] ボタンは表示されません。

次の例は、変換機能の使用方法を示しています。



ドキュメントをインポートする

新しいフォーム AI が作成されると、新しいウィンドウが開いてデータをインポートするよう求められます。最低 2 個から最大 20 個のドキュメントをインポートできます。各ドキュメントの最大ページ数は 5 ページです。アップロードするファイルをドラッグ アンド ドロップまたは参照します。



ドキュメントのインポートは、フォーム AI を半構造化 AI ドキュメントの種類に変換するもう 1 つの方法です。20 を超えるドキュメントをアップロードしようとした場合、またはいずれかのドキュメントが 20 ページを超える場合は、オプションが表示されます。フォーム AI セッションを半構造化セッションに変換するかどうかを確認するポップアップが画面に表示されます。



自動的に抽出されたフィールドについては、コンテンツの種類が正しいかどうかも確認する必要があります。たとえば、日付フィールドが自動的に抽出された場合、コンテンツの種類は [日付] である必要があります。不正確な情報は手動で修正する必要があります。

管理バー

ページ上部には管理バーがあります。このバーでは、ドキュメント間の移動、ドキュメントの削除/復元、ドキュメントの検索/フィルター処理、AI モデルの予測の実行、ドキュメントのインポートとエクスポートなどの複数の操作を実行できます。

以下に、管理バーで利用可能な項目を示します。

アイテム

Icon

説明

ナビゲーション

アクティブなフィルターに一致するドキュメント間を移動します。

2 つの矢印の間にカウンターが表示されます。アクティブな検索/フィルターに一致するドキュメントの総数のうち、現在のドキュメントの数を示します。

検索とドキュメント内を検索

検索 - ドキュメントの検索またはフィルター処理を開始します。フィルターはドキュメントのエクスポート時にも適用されます。ドキュメント内の単語またはドキュメント名でフィルター処理できます。

ドキュメント内を検索 - ドキュメント内のテキスト検索を開始します。 をクリックするか、ショートカット キー Ctrl + Shift + F を使用します。

削除/復元

/

ドキュメントを削除または復元します。削除したドキュメントは、deleted フィルターで検索できます。

インポート

[データをインポート] ダイアログ ボックスを開きます。

エクスポート

[ファイルをエクスポート] ダイアログ ボックスを開きます。

ドキュメントの名前と種類

なし

現在アクティブなドキュメントの名前と種類です。

ダウンロードする

このオプションは、ドキュメント名の横にあるドロップダウン リストから利用できます。

アイコンをクリックすると、元のドキュメントを含む Zip ファイルをダウンロードできます。元のドキュメントに加えて、Document Manager によって内部で .jpeg 画像に変換されたすべてのページもダウンロードされます。

完全に削除

docs image

このオプションは、ドキュメント名の横にあるドロップダウン リストから利用できます。

個々のファイルを完全に削除します。.pdf とそのファイルのすべての .jpeg イメージが AI Center のデータセットから削除され、すべてのメタデータがデータベースから削除されます。

ボタンをクリックすると、ドキュメントを完全に削除するかどうかを確認するポップアップ メッセージが表示されます。[OK] クリックして続行するか、[キャンセル] をクリックして前の画面に戻ります。

予測

AI モデルの予測を実行し、結果を表示します。

事前ラベル付けを設定すると、管理バーでこのボタンが有効化されます。このボタンをクリックすると、現在のドキュメントの事前ラベル付けが行われます。

現時点では、パブリック エンドポイントを使用して [予測] オプションを使用すると、ドキュメントの最初の 10 ページにしか事前ラベル付けが行われません。これは既知の問題であり、現在修正が行われています。なお、AI Center で ML スキルを使用して [予測] オプションを使用した場合には、そのような制限はありません。

公開

フォーム AI 抽出器をパブリッシュして関連リンクを作成します。プロジェクトの抽出器のリストで確認できます。

設定

OCR と事前ラベル付けの設定を行ったり、[使い方] パネルにアクセスしたりできます。

設定ボタンには、2 つの利用可能なオプションがあります。

  • [設定] - プロジェクトの設定から自動的に入力される OCR の設定を確認できます。
  • アクセシビリティ モードでは生の値が表示されます。

  • [使い方] - 利用可能なすべてのショートカットとコントロールがあります。

セッション

なし

ページの上部に表示される、現在のセッションの名前です。 UiPath Document Understanding のロゴの横にあります。

[削除] オプションと [完全に削除] オプションの違いを理解できるよう、もう少し詳しく説明します。

  • [削除] オプションを使用するとファイルが削除されますが、プロジェクトから完全に削除されるわけではありません。削除したファイルは [検索] バーから [削除済み] フィルターで検索し、[復元] オプションを使用して復元できます。
  • [完全に削除] オプションを使用すると、選択したファイルが削除され、一切復元できません。

    両方のオプションの使用方法を以下に示します。



設定ボタンには、2 つの利用可能なオプションがあります。

  • 設定: OCR サービスを設定できます。
  • 使い方: ヘルプ メニューです。


列フィールド

新しい列フィールドを作成する

  1. ページ上部の表セクションの docs image アイコンをクリックし、新しい列フィールドを追加します。[新しい列フィールドを作成] ウィンドウが表示されます。
  2. [一意のフィールド名を入力] フィールドに、フィールドの一意の名前を入力します。このフィールドでは大文字は使用できません。小文字、数字、アンダースコア (_)、およびダッシュ (-) のみを含めることができます。
  3. [OK] をクリックします。

列フィールドを編集する

[フィールドを編集] ボタンをクリックします。列フィールドで利用可能なオプションは下表のとおりです。

オプション

説明

フィールド名

フィールドの一意の名前です。

このフィールドでは大文字は使用できません。小文字、数字、アンダースコア (_)、およびダッシュ (-) のみを含めることができます。

コンテンツの種類

フィールドのコンテンツの種類です。

  • 文字列: 会社名、住所、支払い条件、およびその他の RPA 開発者が RPA ワークフロー内に解析または書式設定ロジックを手動で構築するためのあらゆるフィールドに適しています。
  • 数値: 金額または数量に適しており、小数点/桁区切り文字をインテリジェントに解析します。
  • 日付: モデルによって、出力が yyyy-mm-dd 形式で解析、フォーマット、統合されます。
  • 電話番号: 電話番号に適しています。書式を設定すると文字と括弧が削除され、スペースがダッシュに置き換えられます。
  • ID 番号: 英数字のコードや ID の数字に適しています。コンテンツの種類「string」に似ていますが、コロン (:) の前の文字をすべて削除します。抽出する ID 番号にコロン (:) が含まれる場合は、データの損失を避けるためコンテンツの種類として [文字列] を使用してください。

ショートカット

フィールドのショートカット キーです。1 つまたは 2 つのキーを使用できます。

項目を分割

このフィールドを明細項目や表の行の区切り文字として使用する場合は、このチェックボックスをオンにします。行にこのフィールドが表示されている場合は、新しい明細項目または表の行とみなされます。通常は、請求書の明細項目の「明細金額」フィールドで使用されます。

[保存] をクリックして設定を保存します。

表の行のグループ化は、AI Center の Document Manager とは異なる方法で行われます。フォーム AI では、各列フィールドの [項目を分割] チェックボックスのステートに基づいて行が自動的にグループ化されます。これは複数行のテキストを含む行がある表にのみ適しているため、表内でテキストが 1 行しかないフィールドでは [項目を分割] チェックボックスをオンに設定する必要があります。たとえば、請求書の場合、[項目を分割] オプションをオンに設定する一般的なフィールドは明細項目の金額です。フォーム AI のコンテキストでは、フォームと同様の対応を行います。

以下に示す例では、1 つの項目に対して説明が 2 行あります。この場合、[説明] 列フィールドの [項目を分割] オプションはオンになっていませんが、他の 2 つの列フィールドでは [項目を分割] オプションがオンになっています。



列フィールドを削除する

列フィールドを削除するには、次の手順を実行します。

  1. 削除する列フィールドに対応する [フィールドを編集] docs image ボタンをクリックします。
  2. [削除] ボタンをクリックします。
  3. [OK] をクリックします。
  4. 列フィールドと、関連付けられているラベル付けされたデータが削除されます。

フィールド

新しいフィールドを作成する

  1. [フィールド] セクションの右側のペインで docs image アイコンをクリックします。[新しい標準フィールドを作成] ウィンドウが表示されます。
  2. [一意のフィールド名を入力] フィールドに、フィールドの一意の名前を入力します。このフィールドでは大文字は使用できません。小文字、数字、アンダースコア (_)、およびダッシュ (-) のみを含めることができます。
  3. [OK] をクリックします。

すべてのフィールドを削除する

  1. ページ上部の表セクションの docs image をクリックし、作成したフィールドをすべて削除します。この機能を使用すると、標準フィールドと列フィールドを含むすべてのフィールドと、現在のドキュメントの種類のコレクション内にあるドキュメントに付けられたすべてのラベルを削除できます。この操作は元に戻せません。
  2. [すべてのフィールドを削除] ダイアログ ボックスで、[削除] ボタンをクリックします。

フィールドを編集する

[フィールドを編集] ボタンをクリックします。標準フィールドで利用可能なオプションは下表のとおりです。

オプション

説明

フィールド名

フィールドの一意の名前です。

このフィールドでは大文字は使用できません。小文字、数字、アンダースコア (_)、およびダッシュ (-) のみを含めることができます。

コンテンツの種類

フィールドのコンテンツの種類です。

  • 文字列: 会社名、住所、支払い条件、およびその他の RPA 開発者が RPA ワークフロー内に解析または書式設定ロジックを手動で構築するためのあらゆるフィールドに適しています。
  • 数値: 金額または数量に適しており、小数点/桁区切り文字をインテリジェントに解析します。
  • 日付: モデルによって、出力が yyyy-mm-dd 形式で解析、フォーマット、統合されます。
  • 電話番号: 電話番号に適しています。書式を設定すると文字と括弧が削除され、スペースがダッシュに置き換えられます。
  • ID 番号: 英数字のコードや ID の数字に適しています。コンテンツの種類「string」に似ていますが、コロン (:) の前の文字をすべて削除します。抽出する ID 番号にコロン (:) が含まれる場合は、データの損失を避けるためコンテンツの種類として [文字列] を使用してください。

ショートカット

フィールドのショートカット キーです。1 つまたは 2 つのキーを使用できます。

複数行

全般

[保存] をクリックして設定を保存します。

標準フィールドを削除する

標準フィールドを削除するには、次の手順を実行します。

  1. 削除する標準フィールドに対応する [フィールドを編集] docs image ボタンをクリックします。
  2. [削除] ボタンをクリックします。
  3. [OK] をクリックします。
  4. フィールドと、関連付けられているラベル付けされたデータが削除されます。

ドキュメント ビューとラベル付け

複数のページが含まれるドキュメントの場合、PDF ビューアーと同様に、ページからページへと自然にスクロールできます。拡大または縮小するには、Ctrl キーを押しながらマウスをスクロールします。

ドキュメント ビューでは、ドキュメントのラベル付けを行えます。単語ボックスを選択し、キーを押してそれらのボックスをフィールドに割り当てます。また、単語ボックスを右クリックして、抽出された情報を検証することもできます。

ドキュメントのラベル付けの方法について詳しくは、こちらのページをご覧ください。

チェックボックス

フォーム AI で利用可能なチェックボックスは、各フィールドにおいて手動でラベル付けする必要があります。[列フィールド] オプションを使用して表のチェックボックスをラベル付けすることもできます。フォーム AI でチェックボックスをラベル付けする際は、オンになっているチェックボックスとオフになっているチェックボックスの両方を考慮する必要があります。

チェックボックスをラベル付けする方法について詳しくは、こちらをご覧ください。

こちらで説明している手順に従って、Document Understanding プロジェクトを RPA ワークフローと連携させることができます。

Was this page helpful?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
UiPath ロゴ (白)
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.